개발/Data Science

데이터분석 준 전문가(ADsP) 기출 27회 오답

huiyu 2023. 3. 9. 06:39

[1과목 데이터 이해]

문제 9) 다음 중 빈칸 (1)(2)에 공통으로 들어갈 알맞은 용어는?
 - 빅데이터 환경에서는 논리적인 (1) 분석 뿐만 아니라 (2) 또는 연관분석을 통해 다양한 문제해결에 도움ㅇ르 받을 수 있다. 즉 (1)로부터 (2)분석으로의 이동이 빅데이터 분석의 주요 변화라고 할 수 있다.
 (1) : 인과관계 
 (2) : 상관관계

[2과목 데이터 분석 기획]

문제 5) CRISP-DM 분석방법론의 데이터 준비 단계의 Task가 아닌 것은?
 1) 데이터 정제
 2) 데이터 통합
 3) 데이터 탐색
 4) 분석용 데이터셋 선택

*CRISP-DM 분석 절차
 1) 업무 이해 : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
 2) 데이터 이해 : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 탐색 품질 확인
 3) 데이터 준비 : 분석용 데이터 센트 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅
 4) 모델링 : 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
    - 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
 5) 평가 : 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
 6) 전개 : 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 검토

문제 10) 아래 내용은 데이터 분석 단계(Phase)의 어떤 Task에 대한 설명인가?
 - 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습을 이ㅛㅇㅇ한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 과정을 의미한다.
 답 : 모델링

[3과목 데이터 분석]

문제 11. 두 개의 확률변수 X,Y의 공분산에 대한 설명 중 적절하지 않는 것은?
 1) 공분산이 양수이면 X가 증가할 때 Y도 증가한다.
 2) 공분산이 음수이면 X가 증가할 떄 Y는 감소한다.
 3) 확률변수 X와 Y가 독립이라면, Cov(X,Y) = 0은 반드시 성립하며, Cov(X,Y)=0이라고 해서 X와 Y는 반드시 독립이라고 할 수 없다.
 4) 공분산의 크기는 상관계수와 동일하게 -1~1사이의 범위를 가는다.

문제 13. 다음 중 중심극한정리에 대한 설명 중 적절하지 않는 것은?
 1) 모집단의 분포가 정규분포에 가까워져야 표본 평균의 분포가 정규분포로 근사하게 된다.
 2) 중심극한정리가 성립하기 위해서는 표본크기가 최소 30 이상이어야 한다.
 3) 모집단이 정규분포가 아닐 때 서로 다른 표본의 크기에 대한 표본평균의 분포들이 표본의 크기가 커짐에 따라 정규분포에 가까워지게 된다.
 4) 표본 크기가 증가할수록 표본의 평균과 표준 편차가 모집단의 평균과 표준 편차에 가까워짐을 의미하게 된다.

문제 15. 앙상블 모형에 대한 설명 중 적절하지 않은 것은?
 1) 부스팅은 배깅의 과정과 유사하나 붓스트랩 표본을 구성하는 재표본 과정에서 각 자료에 동일한 확률을 부여한다.
 2) 아다부스팅은 가장 많이 사용되는 부스팅 알고리즘이다.
 3) 배깅은 Bootstrap aggregating의 준말로 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법이다.
 4) 배깅은 반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러번 추출될 수 있고 어떤 데이터는 추출되지 않을 수 있다.

* 부스팅은 배깅의 과정과 유사하나 붓스트랩 표본을 구성하는 재표본 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출한다.

문제 27. 입력받은 값을 출력으로 0~1 사이의 값으로 모두 정규화하며 출력 값들의 총합은 항상 1이 되는 특성을 가진 활성화 함수를 무엇이라 하는가? 
 
- 시그모이드 : 둘 중 하나로 분류할 경우에는 하나의 입력을 로지스틱 함수에 넣어 하나의 출력을 얻습니다. 이 출력은 0~1 사이의 값이므로 둘 중 어느 한 쪽일 확률로 해석한다.
 - 소프트 맥스 : 여러 개 중 하나로 분류할 경우에는 카테고리와 같은 수의 입력을 소프트맥수 함수에 넣습니다. 각각의 출력은 0~1 사이이며, 모두 더하면 1이 되므로 출력을 각 카테고리에 해당하는 확률로 해석

문제 29. 로지스틱 회귀분석의 경우 종속변수의 범위는 0~1이며 우변의 범위는 마이너스 무한대에서 플러스 무한대의 값을 갖게 됩니다. 이를 해결하기 위해 로지스틱 회귀분석에서는 반응 변수 대한 함수적 변환을 무엇이라 하는가?
 - 로짓변환

 

 

 

728x90
반응형