개발/Data Science

데이터분석 준 전문가(ADsP) 기출 33회 오답

huiyu 2023. 3. 14. 07:10

[1과목 데이터 이해]

문제 9. 기업의 의사결정을 지원할 수 있는 분석 정보를 제공하는 데이터베이스로 데이터의 주제 지향성, 통합성, 시계열성, 비휘발성을 특징으로 하는 데이터베이스를 무엇으로 하는가?
 - 데이터 웨어하우스

[2과목 데이터 분석기획]

문제 1. 다음 중 분석 프로젝트 관리방안에 관한 설명으로 적절하지 않은 것은?
 1) 정확도는 실제로 TRUE인 비율 중 TRUE로 예측되었던 정도를 의미한다. 
 2) 정밀도는 TRUE로 예측한 비율 중 실제로 TRUE인 정도를 의미한다. 
 3) 분석의 활용적 측면에서는 정확도가 중요하고, 안정적인 측면에서는 정밀도가 중요하다.
 4) 분석 모델의 정확도와 정밀도는 트레이드 오프(trade-off) 관계를 이룬다.

*정확도는 실제 측정과 절대 측정 간의 일치 수준을 나타낸다. 정밀도는 같은 요소의 여러 측정값에 있는 변동 수준을 의미한다.

문제 3. 빅데이터 분석방법론의 계층적 프로세스 모델에 대한 설명으로 적절한 것은?
 1) 분석방법론의 최상위 계층은 단계(Phase)이고 마지막 계층은 태스크(task)이다.
 2) 태스크(task)는 기준선(Baseline)으로 설정되어 관리되어야 하며 버전관리(Configuration Management) 등을 통한 통제가 이루어져야 한다.
 3) 마지막 계층인 태스크(Task)는 입력자료, 출력 자료 등으로 구성된 단위 프로세스이다.
 4) 빅데이터 분석방법론은 분석 기획, 데이터 준비, 데이터 분석, 시스템 구현, 평가 및 전개 단계를 수행하여 빅데이터 분석 프로젝트를 종료한다.

* 마지막 계층은 (Step)이다.
* 2) 태스크->페이즈(Phase)
* 3) Task->Step

문제 10. 반복을 통하여 점증적으로 프로젝트를 완성해 가는 분석모형 프로세스로, 처음 시도하는 프로젝트에 적용이 쉽지만, 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수도 있는 분석 프로세스를 무엇이라 하는가?
 - 나선형 모델(Spiral Model)

[3과목 데이터 분석]

문제 1. 주성분 분석에 대한 설명으로 적절하지 않은 것은?
 1) 변수의 차원을 고차원에서 저차원으로 축소하며 다중 공선성을 해결할 수 있다.
 2) 여러 개의 양적 변수들 사이의 분산-공분산 관계를 이용하여 변수들이 선형 결합으로 표현하는 기법이다.
 3) 과대 적합을 탈피하고 시각화를 쉽게 하려고 상관 있는 기존 변수들로 정보를 단순화한다.
 4) p개의 변수들을 중요한 m개의 주성분으로 표현하여 전체 변동을 설명하는 것으로, m개의 주성분은 기존 관련된 여러 개의 측정변수들을 몇개의 독립적인 새로운 변수로 변환하는 것이다.

문제 2. 통계적 추론에 대한 설명으로 옳지 않으 것은?
 1) 점 추정은 모집단의 모수를 하나의 값으로 추정하는 것이다.
 2) 구간 추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 도출하는 것이며, 실제 모집단의 모수는 신뢰구간에 포함되어야 한다. 
 3) 제한된 표본을 통해 모집단에 대한 일반적인 결론을 유도하는 시도이므로 본질에서 불확실성을 수반한다.
 4) 추정이란 전수조사가 불가능하여 모집단에서 추출한 표본을 근거로 확률론을 활용하여 모집단의 모수를 추론하는 것이다.

문제 11. 다음 중 과대 적합(Overfitting)에 대한 설명으로 적절하지 않은 것은?
 1) 생성된 모델이 훈련 데이터에 최적화되었으면 평가용 데이터의 작은 변화에도 민감하게 반응하지 않는다.
 2) 변수가 많아서 모형이 복잡한 경우 발생한다.
 3) 과대 적합이 발생이 예상되면 학습을 종료하고, 업데이트 과정을 반복을 방지할 수 있다.
 4) 학습데이터가 모집단의 특성을 충분히 설명하지 모샇ㄹ 떄 자주 발생한다. 

문제 15. 표본 조사에 대한 설명으로 부적절한 것은?
 1) 표본오차는 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추출되지 못하여 발생하는 오차이다.
 2) 표본 편의는 표본추출 방법에서 기인하는 오차를 의미한다.
 3) 표본 편의는 표본추출 방법에 따라 최소화하거나 없앨 수 있다.
 4) 비표본 오차는 표본오차를 제외한 조사의 전체 과정에서 발생할 수 있는 모든 오차를 말한다.

* 표본 편의는 확률화에 의해 최소화하거나 없앨 수 있다. 확률화란 모집단으로부터 편의되지 않는 표본을 추출하는 절차를 의미한다.

문제 21. 주성분 분석에서 주성분 개수를 선택할 때 고려하지 않아도 되는 것은?
 1) 공분산 행렬을 사용하는 경우 고윳값이 1보다 큰 주성분의 수를 사용한다.
 2) 누적 기여율이 70~90%가 되도록 주성분의 개수를 선택한다.
 3) 개별 고윳값의 분해 가능 여부를 고려하여 선택한다. 
 4) 각각의 주성분은 상관관계가 있는 기존 변수들의 선형 결합으로 이루어진다.

* 주성분 분석에서의 주성분 개수를 선택하는 방법
 - 전체 변이의 공헌도
 - 평균 고윳값
 - 스크리 그래프

문제 22. 다음 중 스피어먼의 상관계수를 계산할 때 분석 대상의 척도는?
 1) 서열척도
 2) 명목척도
 3) 등간척도
 4) 비율척도

문제 25. 분류모형 평가에서 실제값이 False인 관측치 중 예측치가 적중한 정도를 나타내는 평가지표를 무엇이라 하는가?
 - 특이도(Specificity)

문제 29. 인공신경망에서 사용하는 활성화 함수 중 출력값 z가 여러개 주어지고 목표치가 다 범주일 때 각 범주에 속할 사후 확률을 제공하는 활성화 함수는?
 - 소프트맥스 함수

 

728x90
반응형