IT

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기출 16회

huiyu 2023. 3. 1. 07:50

기출 16회

문제 3) 다음 중 의사결정나무(Decision Tree)에 대한 설명 중 틀린 것은?
 1) 정지규칙이란 더 이상 분리가 일어나지 않고 현재의 마디가 최종마디가 되도록 하는 여러 가지 규칙으로 카이제곱통계량, 지니 지수, 엔트로피 지수 등이 있다.
 2) 가지치기란 최종마디가 너무 많으면 모형이 과대 적합된 상태로 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않게 된다.
 3) 의사결정나무를 위한 알고리즘은 CHAID, CARD< ID3, C4.5가 있으며 상향식 접근 방법을 이요한다.
 4) 의사결정나무는 목표변수가 이산형인 경우의 분류나무(classification tree)와 목표변수가 연속형인 경우의 회귀나무(regression tree)로 구분된다.

문제 4) Lasso 회귀분석에 관한 설명 중 틀린 것은?
 1) 추정 계수의 절대값 합을 최소로 하는 패널티를 부여한다.
 2) 독립 변수가 많아질수록 training data의 설명력을 좋아지지만 과적합 문제가 발생할 수 있다.
 3) 람다값이 너무 크면 모든 항들에 대하여 누마 많이 penalty가 적용되므로 model에 데이터를 잘 설명하지 못하는 underfitting 문제가 발생할 것이다.
 4) Lasso regression은 L2 norm을 사용해 패널티를 주는 방식이다.

* 릿지 vs 라쏘 vs 엘라스틱넷

릿지(Ridge) 라쏘(Lasso) 엘라스틱넷(Elastic net)
L2-norm
Regularization
L1-norm
Regularization
L1-norm,
L2-norm
Regularization
변수 선택 불가능 변수 선택 가능 변수 선택 가능
변수 간 상관관계가 높은 상황에서 좋은 예측 성능 변수 간 상관관계가 높은 상황에서 릿지에 비해 상대적으로 떨어짐 상관관계 큰 변수를 동시에 선택/배제하는 특성

문제 7) 다음은 가설검정에 관한 설명이다. 가장 적절하지 않은 것은?
 1) 점추정은 '모수가 특정한 값일 것'이라고 선언하는 것으로, 사실상 추정이 얼마나 정확한가를 판단하기가 불가능하다.
 2) 가설검정이란 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택 여부를 결정하는 분석 방법이다.
 3) 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류를 제 1종 오류라고 한다.
 4) 비모수검정은 정규성 가정이 충족하고, 서열척도일 때 사용할 수 있는 검정방법이다.

* 해설
 - 비모수검정에서는 가정된 분포가 없으므로 가설은 단지 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 형태에 대해 설정한다.

문제 8) k-평균 군집의 설명 중 옳은 것은?
 1) k - 평균 군집 결과는 덴드로그램(dendrogram)의 형태로 표현된다.
 2) k - 평균  군집은 한번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수 없다.
 3) k - 평균 군집은 초기값을 지정하지 않는다.
 4) 알고리즘이 단순하며, 빠르게 수행되며 계층적 군집보다 많은 양의 자료를 다룰 수 있다.

문제 10) k-평균 군집에서 단점을 해결하기 위한 방안은?
 1) 이상값 자료에 민감한 k - 평균 군집의 단점을 보완하기 위해 군집을 형성하는 매 단계 마다 평균 대신 중앙값을 사용하는 k-중앙값 군집을 사용한다.
 2) k - 평균은 군집의 수를 미리 정할 필요가 없다.
 3) 볼록한 형태가 아닌 군집이 존재할 경우 군집 성능이 높아진다.
 3) 조화 평균을 사용한다.

문제 20) 다음 중 연관분석(Association analysis)설명으로 적절하지 않은 것은?
 1) 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.
 2) 너무 세부화된 품목을 가지고 연관규칙을 찾으려고 하면 의미 없는 분석 결과가 나올 수도 있다.
 3) 향상도가 1이면 두 품목 간에 연관성이 없는 서로 독립적인 관계이고, 1보다 작으면 서로 음의 상관관계로 품목 간에 연관성이 없다.
 4) 시차 연관분석은 인과관계 분석이 가능하다.

* 시차 연관분석은 인과관계 분석이 가능하다.

문제 21) 다음 중 결측값(Missing Value)처리에 대한 imputation에 관한 설명이다. 틀린 것은?
 1) 불완전 자료는 모두 무시하고 완전하게 관측된 자료만으로 표준적 통계기법에 의해 분석하는 방법을 말한다.
 2) 평균대치법(Mean Imputation)은 관측 또는 실험되어 얻어진 자료의 적절한 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만든 후, 완전한 자료를 마치 관측 또는 실험되어 얻어진 자료라 생각하고 분석하는 방법을 말한다.
 3) 단순확률 대치법(Single Stochasitc Imputation)은 평균 대치법에서 추정량 표준오차의 과소추정문제를 보완하고자 고안된 방법이다.
 4) 다중대치법은 추정량의 과소추정이나 계산의 난해성 문제를 보완하는 방법이다.
* 다중대치법(MNultiple Imputation), 단순대치법(Single Imputation)은 결측치를 가진 자료 분석에 사용하기가 용이하고, 통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완해준다. 그러나 추정량 표준오차의 과소추정 또는 계산의 난해성 문제를 여전히 가지고 있다.

문제 22) 다음은 Boxplot에 대한 설명이다. 적절하지 않은 것은?
 1) 중위수는 상자의 선으로 표시되며 데이터 중심의 일반적인 측도로, 관측치의 절반은 이 값보다 작거나 같고 절반은 이 값보다 크거나 같다.
 2) 사분위 간 범위 상자는 데이터의 중간 50%를 나타내며, 제 1사분위수와 제 3사분위수 간의 거리를 보여준다.
 3) 수염은 상자의 양쪽에서 연결되며, 특이치를 제외하고 데이터 값의 하위 25%와 상위 25%의 범위를 나타낸다.
 4) 상자박스는 그룹 간 분포 차이를 비교할 수 있으며, 그 차이가 유의미함을 보여준다.

* boxplot으로 변수들간에 통계적 유의성을 확인할 수 없다.

문제 23) 이질적인 모집단을 세분화시키기 위한 방법은?
 1) 연관분석
 2) 군집분석
 3) 분류분석
 4) 주성분분석

단답형)

문제 25) 로지스틱 회귀모형에서 exp(x1)의 의미는 나머지 변수가 주어질 때 x1이 한 단위 증가할 때마다 성공(Y = 1)의 (   )가 몇 배 증가하는 지를 나타낸다. (    )에 들어갈 내용은?
 - odds(오즈)

문제 27) 베이즈 추론을 기반으로 한 방법론의 정확도는 일반적으로 머신러닝의 대표적인 방법인 랜덤포레스트나 트리 분류 방법보다도 높다고 평가받고 있다. 베이지안 추론을 활용한 대표적 머신러닝 알고리즘을 무엇이라 하는가?
 - 나이브 베이즈 분류

문제 29)  (   ) 은 시점에 상관없이 시계열의 특성이 일정한 것을 의미하며, 이를 만족한다는 것은 아래 보기의 3가지 조건을 모두 충족할 때 성립한다.
 [보기]
  (1) 평균이 일정하다.
  (2) 분산이 시점에 의존하지 않는다.
  (3) 공분산은 단지 치사에만 의존하고 시점 자체에는 의존하지 않는다.
- 정상성

문제 30) 각 군집 간의 거리가 얼마나 효율적으로 분리돼있는지를 나타내는 지표로서. 효율적으로 잘 분리 됐다는 것은 다른 군집과의 거리가 떨어져 있고 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐 있다는 의미하는 군집분석 평가지표를 무엇이라 하는가?
 -  실루엣 계수
 * 각 데이터 포인트와 주위 데이터 포인트들과의 거리 계산을 통해 값을 구하며, 군집 안에 있는 데이터들은 잘 모여있는지, 군집끼리는 서로 잘 구분되는지 클러스터링을 평가하는 척도로 활용된다.

728x90
반응형