개발/Data Science

데이터분석 준 전문가(ADsP) 기출 29회 / 30회 오답

huiyu 2023. 3. 11. 07:11

29회 기출 문제

[1과목 데이터 이해]

문제 2. SQL 빈칸에 알맞은 구문은?

select department_id 부서번호, round(avg(salary)) 평균급여
from employees group by department id  (   ) avg(salary) <700;

1) Having
2) Order
3) Where
4) Sort

* HAVING절은 WHERE절과 동일하다. 단 조건 내용에 그룹 함수를 포함하는 것만을 포함한다. 일반 조건은 WHERE절에 기술하지만 그룹 함수를 포함한 조건은 HAVING절에 기술한다.

문제 7. 다음 중 데이터 유형이 다른 것은?
 1) 데시벨 단위의 센서데이터
 2) 이메일
 3) 음성데이터
 4) 영상데이터
* M2M에서 생성되는 센서데이터는 반정형데이터다.

문제 9. 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크를 무엇이라 하는가?
 - 맵리듀스
 * 맵리듀스와 HDFS는 하둡을 구성하는 각각의 요소들이다.
 * 맵리듀스는 하둡의 계산을 담당하고, HDFS는 하둡의 스토리지를 담당한다.

[2과목 데이터 분석 기획]

 문제 1. 다음 중 분석 성숙도 모델에 대한 설명 중 성격이 다른 것은?
  1) CoE 조직 운영*Center Of Excelent
  2) 데이터 사이언스 그룹
  3) 빅데이터 분석
  4) 분석 샌드박스
*1)은 확산단계, 나머지는 최적화 단계

문제 2. KDD 분석 방법론의 프로세스 중 아래 보기가 설명하는 단계를 무엇이라 하는가?
 - 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋을 변경하는 프로세스를 수행한다.
 1) 데이터 전처리
 2) 데이터 변환
 3) 데이터 마이닝
 4) 데이터셋 선택

문제 4. 분석 성숙도 진단은 비즈니스 부문, 조직/역량 부문, IT부문 등 3개 대상으로 성숙도 수준에 따라 4단계로 구분할 수 있다. 다음 아래 보기의 성숙단계는?
 - 비주얼 분석
 - 분석 전용 서버
 1) 도입 단계
 2) 활용 단계
 3) 확산 단계
 4) 최적화 단계

문제 5. 분석 프로젝트의 관리방안에 대한 설명 중 올바르지 않는 것은?
  1) Accuracy는 모델과 실제값 사이의 차이가 적다는 정확도를 의미한다.
  2) Precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미한다.
  3) 분석의 활용측면에서는 Precision이 안정성 측면에서는 Accuracy가 중요하다.
  4) Accuracy와 Precision은 트레이드 오프의 경우가 많기 떄문에 모델의 해석 및 적용 시 사전에 고려해야 한다.

[3과목 데이터 분석]

문제 1. 다음 중 비율척도의 사례로 적절한 것은?
 1) 무게, 나이
 2) 온도, 지수
 3) 성별, 출생지
 4) 성적 등급

문제 3. 변수선택 기준으로 사용하는 통계량에 대한 설명 중 올바르지 않는 것은?
 1) AIC, BIC를 최소화한다는 뜻은 우도를 가장 크게 하는 동시에 변수 갯수는 가장 적은 최적의 모델을 의미하게 된다.
 2) Bias는 변수를 제거하면서 생기는 오류이고, Variance는 변수가 증가하면서 생기는 오류이다.
 3) AIC, BIC 모두 낮을수록 적합한 통계량이라 할 수 있다.
 4) BIC는 AIC가 과적합이 되는 경향을 제어하기 위해 사용한다.

* AIC와 BIC 모형 선택 기준 척도로써 많이 활용된다. 두 개 모두 모형 적합 정도를 나타내는 잔차 제곱합과 변수의 개수가 많은 모형은 피하도록 벌점항으로 이루어져 있다.

문제 5. 다음 중 공분산과 상관계수에 대한 설명 중 올바르지 않은 것은?
 1) 공분산이 0이라면 두 변수 간에는 아무런 선형관계가 없으며 두 변수는 서로 독립적인 관계에 있음을 알 수 있다.
 2) 상관분석은 두 변수의 인과관계를 성립 여부를 확인할 수 없다.
 3) 공분산은 측정단위에 영향을 받지 않는다.
 4) 상관계수로 변수 간의 유의성을 확인할 수 없다.

* X와 Y가 독립이라면, Cov(X,Y) = 0은 반드시 성립한다.
* CoV(X,Y) = 0이라고 해서 X와 Y는 반드시 독립이라고 할 수 없다
 -> 공분산 0이라고 해서 두 변수간 아무런 관계가 없다는 것은 아니다.  두 변수간에 비선형적인 관계가 존재할 수 있기 때문에, 두 변수 간의 관계를 파악하려면 공분산만으로 판단하기보다는 산점도를 그려서 시각적으로 파악하는 것이 좋다.

문제 15. 다음 중 로지스틱 회귀분석에 관한 설명 중 옳지 않은 것은?
 1) 로지스틱 회귑분석의 모형 탐색은 최대 우도추정법을 이용한다.
 2) 로지스틱 회귀분석은 독립변수에 대한 어떠한 가정도 필요하지 않다.
 3) 로짓변환을 통해서 곡선을 직선형태로 변환할 수 있어 직관적 해석이 가능하다.
 4) 로지스틱 회귀분석과 일반선형회귀분석 모두 F test, t test로 유의성 검정을 실시해야 한다.

* 로지스틱 회귀분석은 카이제곱 검정을 실시한다.

문제 18. 목표변수가 연속형인 경우 회귀나무의 경우 사용하는 분류기준은 무엇인가?
 1) 카이제곱 통계량, 지니지수
 2) 지니지수, 엔트로피 지수
 3) 엔트로피 지수, 분산감소량
 4) 분산감소량, F-통계량의 p-값

문제 19. 다음 중 ROC 그래프에 대한 설명 중 올바르지 않은 것은?
 1) ROC의 가장 이상적으로 완벽한 분류 모형은 x축은 0, y축은 1일때이다.
 2) 모형의 성과를 평가하는 기준은 ROC그래프의 밑부분 면적이 넓을수록 좋은 모형으로 평가한다.
 3) ROC의 x축은 민감도, y축은 특이도로 나타내어 이 두 평가값의 관계로 모형을 평가한다.
 4) y축을 참긍정률(TPR), x축을 거짓긍정률(FPR)이라 하면 이 둘의 관계는 서로 반비례관계에 있다.

문제 25. 구축된 모델의 광이 또는 과소맞춤 등에 대한 미세조정 절차를 위해 사용하는 데이터를 무엇이라 하는가?
 - 검증용 데이터 또는 검정용 데이터(Validation data)

30회 기출 문제

[2과목 데이터 분석 기획]

문제 1. 다음 중 데이터 거버넌스의 구성 요소가 아닌 것은?
 1) 원칙
 2) 조직
 3) 절차
 4) 분석방법

문제 6. 다음 중 비즈니스 모델 분석의 상향식 접근방식에서의 특정 업무 영역의 주제 지향적 분석 기회를 발굴하는 절차가 옳은 것은?
 1) 프로세스 분류 -> 분석 요건 정의 -> 분석 요건 식별 -> 프로세스 흐름 분석
 2) 프로세스 분류 -> 프로세스 흐름 분석 -> 분석 요건 식별 -> 분석 요건 정의
 3) 분석 요건 식별 -> 프로세스 분류 -> 프로세스 흐름 분석 -> 분석 요건 정의
 4) 분석 요건 식별 -> 분석 요건 정의 -> 프로세스 분류 -> 프로세스 흐름 분석

문제 7. 다음 중 아래에서 설명하는 데이터 거버넌스 체계 요소는
 - 메타 데이터 관리 원칙 수립
 - 데이터 사전 관리 원칙 수립
 - 데이터 생명 주기 관리 방안 수립
답 : 데이터 관리 체계

문제 9. 다음 중 빈칸에 알맞은 용어를 순서대로 적으시오.
 - 데이터 거버넌스란 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임 워크를 구축하는 것을 말한다. 특히 (a, b, c)은 데이터 거버넌스의 중요한 관리 대상이다.
 - 메타 데이터, 마스터 데이터, 데이터 사전

[3과목 데이터 분석]

문제 4. 변수의 표준화와 함께 변수 간의 상관성(분포 형태)을 동시에 고려한 통계적 거리를 무엇이라 하는가?
 1) 표준화 거리
 2) 마할라노비스 거리
 3) 맨하튼 거리
 4) 유클리드 거리

문제 11. 선형회귀모형의 오차항에 대한 가정조건으로 올바른 것은?
 1) 독립성, 선형성, 등분산성
 2) 독립성, 등분산성, 정상성
 3) 정규성, 효율성, 등분산성
 4) 정규성, 불편성, 독립성

문제 15. 다음 중 제 1종 오류에 대한 설명 중 올바른 것은?
 -> H0가 사실일 때, H0가 사실이 아니라고 판정.

문제 16. SOM(자기조직화지도) 알고리즘은 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화한다. 이러한 SOM 모델은 두 개의 인공신경망 층으로 구성되어 있으며 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층을 무엇이라 하는가?
  1) 입력층 (Input Layer) 
  2) 경쟁층 (Competive Layer) 
  3) Best Matching Unit
  4) Back Propagation

문제 17. 회귀분석의 영향력 진단에 대한 설명 중 가장 적절하지 않는 것은?
 1) Cook's Distance가 기준값인 1보다 클 경우 영향치로 간주한다.
 2) DFBETAS(Difference in betas)는 해당 관측치의 개별 베타 값에 대한 영향력 지표이다.
 3) 적합값(fitted value)에 대한 영향력은 DFFITS로 기준값보다 작을수록 영향치일 가능성이 높다.
 4) Leverage H는 관측치가 다른 관측치 집단으로부터 떨어진 정도 의미이다.
 - 회귀분석의 영향력 진단이란 회귀분석의 안전성을 평가하는 통계적인 방법이다. 영향점이란 회귀직선의 기울기에 영향을 크게 주는 점을 의미한다. 이에 대한 영향력 진단 방법으로 Cook's Distance(쿡의 거리), DFBEATS, DFFITS, Leverage H 등이 있다.
 - DFFITS는 i번째 관측치 제외 시 종속변수 예측치의 변화 정도를 측정한 값으로 기준값보다 클수록 영향치일 가능성이 높다.

문제 28. 이항분포가 주어진 횟수의 시행 중에서 사건 횟수에 적용되는 분포임에 반하여, 단위 시간당 또는 단위 공간 당 사건 발생 횟수에 적용되는 분포를 무엇이라 하는가?
 - 포아송분포

 


 

 

 

 

728x90
반응형