개발/Data Science

데이터분석 준 전문가(ADsP) 기출 26회 오답

huiyu 2023. 3. 8. 07:00

[3과목 데이터 분석]

문제 8. 판별분석에 대한 설명 중 올바르지 않는 것은?
 1) 피어슨 상관계수를 이용하여 선형판별함수를 도출한다.
 2) 판별분석은 모수통계에서의 분류 기법 중 하나로 대표적인 지도학습 모델링 기법이다.
 3) 변수들 간의 분산 - 공분산 행렬은 동일하다는 가정을 전제로 한다.
 4) 소속집단이 불명확할 때 특정 변수가 속한 집단을 예측하는 분석방법이다.
 -  판별분석이란 분류에 사용되는 머신러닝 방법 중 하나로 두 개 이상의 모집단에서 추출된 표본들의 정보를 활용하여, 이 표본들이 어떤 집단에서 추출된 것인지 결정할 수 있는 기준을 찾는 분석법이다.
 - 판별변수는 표본이 어떤 집합에 속하는지 판별하기 위한 변수로, 데이터에 포함된 독립변수 중 판별력이 높은 변수이다.
 - 선택한 판별변수들을 이용하여 분류의 기준이 되는 판별 점수를 도출하는 새로운 함수이다. 판별 함수에 새로운 데이터를 대입하여 해당 데이터가 어떤 집단에 속하는지 판별한다.
 - 각 그룹에 대한 분포 가정은 필요 없으나 산포는 같다고 가정한다. 즉, 정규가정은 필요 없으나 두 모집단의 공분산 행렬은 동일하다고 가정한다.

문제 9. 다음 중 정규분포 함수에 대한 설명 중 부적절한 것은?
 1) pnorm()는 주어진 관측치에 보다 작거나 같은 확률을 계산하기 위해 정규분포를 따르지 않는 누적분포함수이다.
  -> pnrom은 정규분포함수이다.
 2) 분위수함수인 qnorm()는 확률을 입력하면 변숫값을 찾을 수 있다.
 3) dnorm() 확률 밀도 함수는 함숫값을 확인할 수 있다.
 4) rnorm() 난수함수는 정규분포함수의 변수에 해당되는 값을 임의로 생성해 주는 함수이다.

문제 13. 다음 중 아래 보기에서 설명하는 확률적 표본 추출 방법을 무엇이라 하는가?
  모집단의 모든 원소들에게 1,2,3...N의 일련번호를 부여하고 이를 순서대로 나열한 후에 k씩 n개의 구간으로 나눈다. 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출한다.
 1) 계통 추출법
 2) 집락 추출법
 3) 단순랜덤 추출법
 4) 층화 추출법

 - 단순 랜덤 추출법 : 단순하게 랜덤으로 추출한다는 의미. 모든 샘플이 선택될 확률이 동일하다. 복원추출방법과 비복원 추출방법이 있다. 복원 추출방법은 한 번 뽑은 샘플을 다음 선택에 또 포함하는 것이고, 비복원 추출방법은 한 번 선택되었으면 그 다음 선택에서 제외하는 것이다. 로또는 비복원 추출방법이다.
- 계통 추출법 : 단순 랜덤추출법을 변형시킨 방법이다. 전체 샘플을 나열한 뒤에 K개씩 n개의 구간으로 나눈다. 매번 K개씩 계통을 나눈다고 생각하고 명칭과 매칭한다.

- 층화 추출법 : 층화추출법은 각 샘플의 특징이 같은 것들로 묶어서 층을 나눈 다음에 각 층에서 샘플을 추출한다. 같은 것으로 묶는 절차가 있기 때문에 집단 내에서 샘플들은 성질이 동일하고, 각 집단 간에는 서로 다른 특징을 갖는다. 예를 들어서, 연령대별로 조사하는 경우 각 연령대를 층으로 나누고 각 연령대에서 n개의 샘플을 추출하는 방법이다. 각 층들은 이질적인 특징을 갖는 경우에 해당하는 추출법이다.

 - 집락 추출법 : 집락은 무리를 의미한다. 전체 모집단에서 무리를 지어서 나누어본다는 것이다. 지역표본추출처럼 무리 구분이 명확할 때 무리를 나누어서 무리 안에서 랜덤 추출을 진행한다. 예를 들어 A중학교 3학년 학생들을 조사할 때, 1반부터 10반까지 전체를 조사하지 않고 2반과 8반만을 조사한다.

 

*이미지 및 내용 출처 : https://jennainsight.tistory.com/entry/통계-표본추출방법-단순랜덤-계통추출법-집락추출법-층화추출법-차이점

 

통계 표본추출방법 (단순랜덤, 계통추출법, 집락추출법, 층화추출법 차이점)

통계는 사회의 여러 현상을 설명하는 숫자이다. 최근에는 데이터 처리속도와 기술의 발달로 표본이 아닌 전수조사도 가능해졌다고 하지만, 전통적인 통계는 모집단 전체를 대표하는 표본을 추

jennainsight.tistory.com

 

문제 16. K-means 비계층적 군집분석에서 군집의 개수를 k개로 사전에 설정해야 한다. 다음 중 군집수를 정할 때 활용하는 그래프로 가장 적절한 것은?
 1) 엘보우 기법
 2) 향상도 곡선
 3) ROC Curve
 4) 덴드로그램
 - 군집의 개수 k는 분석자가 임의로 정하는 것이기 때문에 최적화된 군집수 k를 찾기 어렵다.
 - 군집수를 설정하는 방법으로 엘보우 기법과 실루엣 방법이 있다.
 - 엘보우 기법은 군집의 중심으로부터 오차제곱합을 기준으로 군집수를 늘려가면서 기울기 완만해지는 엘보우 지점에서 군집수 결정하는 방법을 의미한다.

* 덴드로그램 : 주어진 데이터의 계층적 군집화를 트리 구조로 나타낸 그림
* 향상도 곡선 : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 파악
* ROC Curve : 분류모형의 평가에 사용되는 그래프로 x축은 (10특이도), y축은 민감도로 그려지는 그래프
* 실루엣 계수 : 각 데이터 포인트와 주위 데이터 포인트들과의 거리 계산을 통해 값을 구하며, 군집 안에 있는 데이터들은 잘 모여있는지, 군집끼리는 서로 잘 구분되는지 클러스터링을 평가하는 척도

문제 20. 2개 변수 데이터 1000개 응답 중 각각 5% 결측값이다. 이중 임의의 관측치 중 결측치가 포함될 확률은(두 변수가 모두 결측값이 존재하는 관측치 확률은 0.025%이다.)?
 1) 0.25%
 2) 9.75%
 3) 20%
 4) 25%

* 5% + 5% - 0.25% = 9.75%

문제 22. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?
 1) 로지스틱 회귀모형은 목표변수가 알려진 데이터에서 설명변수들의 관점에서 각 목표변수 내의 관측치에 대한 유사성을 찾는데 사용할 수 있다.
 2) 로짓을 설명변수들의 선형함수로 모형화하기 때문에 모형을 로지스틱 회귀모형이라 한다.
 * 설명변수->반응변수
 * 로지스틱 모형은 적절한 변환을 통하여 곡선을 직선형태로 바꿀수 있으며 이러한 변환을 로짓 변환이라한다.
 * 로짓변환은 어떤 사건이 일어날 확률과 일어나지 않을 확률의 비에 양변에 자연로그를 취하는 것을 말한다.
 3) 오즈란 범주 0에 속할 확률(10p)이 범주 1에 속할 확률 p의 비로 나타낸다.
 4) 로지스틱 회귀모형은 종속변수가 범주형인 경우 사용하는 분석 방법이다.

문제 26. 시계열 모형 중 과거 시점의 관측자료와 과거 시점의 백색잡음의 선형 결합으로 현 시점의 자료를 표현하는 모형은 무엇인가?
 - ARMA 모형

문제 28. 원 자료로부터 붓스트랩 샘플을 추출하고, 각 붓스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사한, 새로운 자료에 대한 예측은 분류의 경우 다수결에 방법으로, 회귀의 경우 평균을 취하는 앙상블은 무엇인가?
 - 랜덤 포레스트

문제 30. 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 군집분석 방법은?
 - SOM(자기 조직화 지도)

728x90
반응형