개발/Data Science

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기본문제

huiyu 2023. 2. 26. 07:43

문제 1) 자료의 척도에 설명으로 부적절한 것은?
 1) 명목척도는 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여한다.
 2) 서열척도는 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다.
 3) 등간척도는 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다.
 4) 비율 척도는 측정값 사이의 비율 계산이 가능한 척도이며, 절대 영점이 존재하지 않는다.

* 척도의 종류

명목척도(Nominal scale) - 단순히 측정대상의 특성을 분류하거나 확인하기 위한 목적
- 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함
- 성별, 혈액형, 출생지 등
서열(순위)척도(Ordinal Scale) - 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음
- 항목들 간에 서열이나 순위가 존재
- 금,은,동메달, 선호도, 만족도 등
등간척도/구간척도(Internval Scale) - 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능함
- 절대 0점이 존재하지 않음, 온도계 수치, 물가지수
비율척도(Ratio Scale) - 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도
- 몸무게, 나이, 형제의 수, 직장까지의 거리

 

문제2) 군집간의 거리에 기반하는 다른 연결법과는 달리 군집내의 오차 제곱합(error sum of square)에 기초하여 군집을 수행하는 계층적 군집 분석 거리 측정은 무엇인가?
 1) 중심 연결법
 2) 평균 연결법
 3) 와드 연결법
 4) 최단 연결법

* 계층적 군집 - 응집형(병합 군집) 군집 방법

A 최단연결법 단일연결법, 거리의 최솟값을 측정
B 최장연결법 완전연결법, 거리의 최대값을 측정
C 중심연결법 두 군집의 중심 간의 거리 측정
D 와드연결법 계층적 군집내의 오차제곱합에 기초하여 군집 수행, 크기가 비슷한 군집끼리 병합하는 경향이 있음
E 평균연결법 모든 항목에 대한 거리 평균을 구하면서 군집화, 계산양이 많아질 수 있음

문제 3) 각 군집이 군집의 중앙(중앙값)에 가장 가깝게 위치해 있는 객체 중 하나로 대표될 떄, k-medoids 알고리즘을 적용한다. k-Means 알고리즘보다 특이값에 대해서 안정적인 결과를 얻게 해주는 k-medoids 알고리즘 함수는?
 1) PAM()
 2) nnet()
 3) mClust()
 4) jaccard()

* PAM 알골지므은 k-medoids의 한 방법이다. 데이터에서 일부 데이터만을 대표값으로 뽑아낸 후 PAM 알고리즘 방식으로 샘플안에서 최적의 중앙값을 계산하는 군집 방법이다.

문제 4) 다음 중 목표변수가 범주형인 경우 예측 모형의 주목적으로 가장 적절한 것은?
 1) 연관분석
 2) 분류
 3) 시뮬레이션
 4) 최적화

문제 5) 도출된 연관 규칙이 얼마나 유의미한지 평가하기 위한 측정지표가 아닌 것은?
 1) 지지도
 2) 신뢰도
 3) 순수도
 4) 향상도

문제 7) 연관 규칙의 측정도구 - 지지도/신뢰도/향상도
https://it-license.tistory.com/29

 

연관규칙의 측정도구 - 지지도, 신뢰도, 향상도

Apriori 알고리즘을 이용한 연관규칙 도출방법을 보면 빈발항목중에서 후보집합을 선정하는 기준으로 지지도(Support) 를 사용한다. 이처럼 연관규칙분석을 할ㅣ때 후보집합을 결정하려면 먼가 후

it-license.tistory.com

 

**단답형

문제8) 다음 빈 칸에 알맞은 선형 회귀모형 추정에 대한 알맞은 용어는?

두 변수의 관계가 선형이며 독립변수 X와 종속변수 Y의 관계를 가장 잘 설명해 줄 수 있는 표본 회귀 방정식을 구해야 한다. 종속변수 Y의 실제 관측지 yi와 표본 회귀식으로부터 구한 종속변수의 예측치 아이인 잔차의 합을 최소로 하는 회귀계수 추정량을 (   ) 라고 한다.
답 : 최소제곱추정량

* 최소자승법 또는 최소제곱법이란 잔차(오차항)의 제곱의 총합을 극소화하여, 좋은 추정회귀선(적합회귀선)을 구하는 방법이다.

문제 9) 혼합분포 군집은 모형기반의 군집방법으로 데이터가 K개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법을 사용한다. 관측되지 않는 잠재변수에 의존하는 확률 모델에서 최대우도나 최대사후확률을 갖는 매개변수를 찾는 반복적인 혼합분포군집의 알고리즘을 무엇이라 하는가?
 답 : EM 알고리즘

문제10) Binary Classfier System(이진 분류 시스템)에 대한 성능 평가 기법으로 x축(1-specificty)이고, y축(sensitivity)을 시각화한 그래프를 무엇이라고 하는가?
 답 : ROC curve

728x90
반응형