개발/Data Science

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기출 17회

huiyu 2023. 3. 2. 07:42

기출 16회

문제 3) 스피어만의 상관계수에 대한 설명 중 올바르지 않은 것은?
  1) 두 변수 간의 비선형적인 관계는 나타내지 못한다.
  2) 연속형 외에 이산형도 가능하다.
  3) 관계가 랜덤이거나 존재하지 않을 경우 상관 계수 모두 0에 가깝다.
  4) 스피어만 상관 계수는 원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 한다.

문제 6) 다음의 통계 검정 중 표본 특성이 2개 표본 이상일 때의 비모수 검정이 아닌 것은?
  1) 부호검정
  2) 크루스칼 - 왈리스 검정
  3) 맨 - 휘트니 검정
  4) 카이스퀘어 적합성 검증
 * 카이제곱 검정의 적합성 검정은 단일표본 검정이고, 독립성 검정은 2개 집단, 동질성 검정은 여러 집단인 경우의 범주형 자료분석이다.

문제 11) 다음 중 교차분석(Cross Tabulation)에 관한 설명 중 올바르지 않은 것은?
  1) 두 변수 간의 연관 관계를 볼 때 교차표를 작성하여 변수들 간 관계를 분석하게 된다.
  2) 교차 분석에 사용되는 검정 통계량이 카이스퀘어 분포를 따르기 떄문에 카이스퀘어 검정이라고 한다.
  3) 교차 분석은 두 변수 부류가 범주형 변수가 아니어도 사용할 수 있다.
  4) 교차표로 두 변수의 값이 공유하고 있는 빈도수가 몇 개인지 파악할 수 있다.
* 교차분석은 범주형 변수(명목척도 또는 서열척도)이어야 한다.

문제 12) 다음은 산포의 척도에 관한 설명 중 적절하지 않은 것은?
  1) 변동계수는 분포의 펴짐 정도를 비교하게 해준다.
  2) IQR은 제3사범위수 - 1사범위수를 의미한다.
  3) 평균절대편차는 관측 값에서 평균을 빼고, 그 차이 값에 절대 값을 의미하는 산포도이다.
  4) 사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값이다.
 * 각 측정치에서 전체 평균 값을 뺀 값의 절댓값으로 표시되는 편차들의 합에서 산술평균을 말한다.

문제 13) 히스토그램에 대한 설명 중 올바르지 않은 것은?
  1) 히스토그램은 분포의 봉우리와 산포를 확인할 수 있다.
  2) 표본크기와 관계없이 데이터 분포를 정확하게 진단할 수 있다.
  3) 히스토그램에서 양쪽 끝의 고립된 막대가 특이치를 의미한다.
  4) 연속형 자료에 적합하며, 범주형 자료는 막대그래프를 이용한다.
 * 히스토그램은 표본 크기가 20 이상일 떄 사용한다. 표본 크기가 너무 작으면 히스토그램의 각 막대에 데이터 분포를 정확하게 표시하기에 충분한 데이터 점이 포함되지 않을 수 있다. 표본이 클수록 히스토그램이 모집단 분포의 형상과 유사하다.

문제 14) 다음은 통계적 추정에 관한 설명 중 올바르지 않은 것은?
  1) 추정(estimation)은 통계량을 사용하여 모집단의 모수를 구체적으로 추측하는 과정을 말한다.
  2) 표본 크기가 커질수록 신뢰구간이 좁아진다. 이는 정보가 많을수록 추정량이 더 정밀하다는 것을 의미한다.
  3) 신뢰수준 95% 의미는 추정값이 신뢰구간에 존재할 확률이 95%라고 할 수 있다.
  4) 하나의 점으로 값을 표현하는 것은 점 추정이라고 한다.
  * 신뢰수준은 참값이 특정 범위에 있는 확률과는 다르다. 그보다는 모수의 참값을 구하기 위한 작업을 많이 반복했을 때 참값이 특정 범위에 있는 비율을 말한다. 또는 방법의 정확도를 의미한다.

문제 17) 다음은 군집분석(Cluster analysis)관한 설명 중 올바르지 않은 것은?
  1) 비계층적 군집분석 기법의 경우 사용자가 사전 지식없이 그룹의 수를 정해주는 일이 많기 때문에 결과가 잘 나오지 않을 수 있다.
  2) 군집분석은 신뢰성과 타당성을 점검하기 어렵다.
  3) 군집 결과에 대한 안정성을 검토하는 방법으로 지도학습과 동일한 교차타당성을 이용한다.
  4) 계층적 군집분석은 이상치에 민감하다.
* 군집을 만든 결과가 얼마나 유용한지 따지는 군집타당성지표가 있다. 군집타당성 지표는 (1)군집간 거리, (2) 군집의 지름, (3) 군집의 분산 등을 고려한다. 군집 간 분산과 군집 내 분산을 고려한다. 대표적 지표로 Dunn Index, Silhouette가 있다. 비지도 학습(군집분석)는 지도학습과 동일한 교차검증 방법을 실행할 수 없다.

문제 18) 주어진 데이터의 일정부분을 모델 만드는 훈련 데이터로 사용하고, 나머지 데이터를 사용해 모델을 평가한다. 이렇게 데이터를 훈련, 테스트 데이터로 분리하여 검증하는 방법을 무엇이라 하는가?
  1) 홀드아웃(Hold-Out)
  2) 신경망 모형
  3) 향상도 곡선
  4) 오분류표

문제 19) 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후, 각 층에서 단순임의 추출법에 따라 배정된 표본을 추출하는 방법을 무엇이라 하는가?
  1) 층화추출법
  2) 집락추출
  3) 계통추출
  4) 편의표본 추출

문제 24) 오분류표 중 정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균한 모형 지표를 무엇이라 하는가?
  1) F1
  2) Precision
  3) Recall
  4) Specificity
 * F1 = 2xprecision x recall / precision + recall

단답형)
문제 25) 가까운 개체들끼리 묶어 감으로써 군집을 만들어 나가는 방법으로 우선 가장 가까운 2개의 개체를 묶어서 하나의 군집을 만들고 나머지 [N-2]개의 개체는 각각 하나의 군집을 만든다. 이와 같은 방법으로 [N-1] 단계를 반복하면 결국 N개의 개체가 모두 묶여서 하나의 군집을 만들게 되는 군집 방법을 무엇이라 하는가?
 - 병합법(agglometrative)

문제 26) 두 평가자의 평가가 얼마나 일치하는지 평가하는 값으로 0~1 사이의 값을 가진다 P(e)는 두 평가자의 평가가 우연히 일치할 확률을 뜻하는 모델 평가 메트릭을 무엇이라 하는가?
 - kappa 통계량

문제 27) FP Ratio(1-특이도), 민감도를 나타내어 이 두 평면 값의 관계로 하는 모형 평가를 무엇이라 하는가?
 - ROC Curve

문제 28) 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 무엇이라 하는가?
  - 분해 시계열

문제 29) SOM Process에서 입력 벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 그 중 제일 가까운 뉴런을 무엇으라 하는가?
-  BMU(Best-Matching Unit)

문제30) 시그모이드 함수의 일반화된 형태로 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하는 활성화함수를 무엇이라 하는가?
 - 소프트맥스

728x90
반응형