개발/Data Science

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기본문제2

huiyu 2023. 2. 27. 06:23

문제 1) 다음 중 지수 평활법에 대한 설명 중 가장 적절하지 않은 것은?
 1) 지수 평활법은 최근에 가까운 자료일수록 과거의 자료보다 지수적으로 더 높은 가중치를 부여되어 예측치에 반영한다.
 2) 지수적으로 평활하는 기법 중에서 가장 단순한 방법을 "단순 지수평활"이라고 하고, 이 방법은 추세나 계절성 패턴이 없는 데이터를 예측할 때 적합하다.
 3) 지수평활법은 추세가 있는 경우 활용하지 못한다.
 4) 지수 평활 계수는 과거로 갈수록 지수적으로 감소한다.

* 해설
 - 지수평활법은 일정 기간의 평균을 이용하는 이동 평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법이다.
 - 단순 지수평활법의 단점은 추세가 있는 경우 잘 모델링하지 못한다는 점이지만 이를 보완한 이중 지수평활법이 있다.

문제 2) 다음 중 표본조사에 대한 설명 중 가장 적절하지 않는 것은?
 1) 표본 통계량으로 모수를 추정할 떄 표본 오차와 비표본오차가 발생할 수 있다.
 2) 표본 편의는 모형 추론 방법으로 최소화하거나 없앨 수 있다.
 3) 표본 오차(Sampling error)는 모집단으로부터 표본을 추출할 때 생기는 자연 발생적인 변동을 나타낸다.
 4) 표본오차는 표본추출 그자체에 기인하는 문제점으로 설계상 문제나 대표성 부족 등으로 발생한다.

* 해설
 - 표본편의는 모수를 크게 또는 작게 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 의미한다. 이런 표본편의는 확률화에 의해 최소화하거나 없앨 수 있다.
 - 확률화란 모집단으로부터 편의되지 않는 표본을 추출하는 절차를 의미한다.

문제3) 다음 중 연관분석을 위해 apriori 함수를 활용하여 연관규칙을 생성한 후에 생성된 연관규칙을 확인하기 위해 사용하는 함수는?
 1) sort()
 2) rule()
 3) inspect()
 4) transaction()

* 연관규칙의 개별 규칙는 inspect()함수를 통해 확인할 수 있다.

문제 4) biplot
 1) biplot은 각 개체들의 첫번쨰 주성분(=행), 두번쨰 주성분(=열) 값을 나타내는 행렬도를 시각화한 것이다.
 2) 벡터의 길이가 원변수의 분산을 표현하며, 길수록 분산이 크다.
 3) biplot그림에서 화살표는 원변수와 PC의 상관계쑤를 뜻하며, PC와 평행할수록 해당 PC에 큰 영향이 있음을 의미한다.

문제 5) Scree Plot
 - 고윳값을 가장 큰 값에서 가장 작은 값을 순서로 정렬해 보여줌(1보다 큰 값 사용)

 1) 주성분의 고윳값 크기를 보여주는 스크리 그림이다.
 2) 몇 개의 주성분을 사용하여 차원축소를 진행할지 결정하기 위해 사용한다.
 3) x축에 주성분을 놓고 y축에 해당 주성분에 대응하는 고윳값을 연결한 그림으로 그래프가 완만해지는 부분 이전까지의 주성분의 수를 선택한다.
 * 분산 누적 비율은 스크리를 통해 알 수 없다.

문제 6) 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?
 1) 종속변수가 이항변수인 일반적인 선형모형으로 가정하기 보다는 0~1사이의 값을 가지는 곡선형태의 모형으로 가정하는 것이 바람직하다.
 2) 로지스틱 회귀모형은 회귀계수의 부호가 양수인 경우 S자모양, 회귀계수의 부호가 음수인 경우 역 S자 모양을 가진다.
 3) 로지스틱 모형은 적절한 변환을 통하여 곡선을 직선형태로 바꿀 수 있으며, 이러한 변환을 로짓변환이라고 한다.
 4) 판별분석과 로지스틱 회귀분석 모두 정규분포를 따르며 집단간 분산 - 공분산이 동일하다는 가정을 한다.

* 해설
 - 로지스틱 회귀 분석에서는 독립변수에 대한 어떠한 가정도 필요로 하지 않는다.
 - 판별 분석은 각 변수들간의 공분산 행렬이 동일하고 독립변수결합분포가 정규분포임을 가정한다.

문제 7) 인공신경망의 일반화 가중치(Generalized weights)에 대한 설명으로 가장 적절한 것은?
 1) 일반화 가중치는 각 공변량들의 효과를 나타내는 것으로 로지스틱 회귀모형에서의 회귀계수와 유사하게 해석된다.
 2) 일반화 가중치는 모든 공변량에 의존하므로 각 자료점에서 전역적인 기여도를 나타낸다.
   (전역적인->지역적인(국소적인)
 3) 모든 자료에 대한 일반화 가중치의 분포의 작은 분산은 비선형적인 효과가 있음을 나타낸다.
   (비선형적인->선형적인)
 4) 각 자료점의 분산이 로그 - 오즈에 미치는 기여도를 나타낸다.
   (분산->공변량)

*단답형
문제 8) 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 슈한 정도를 의미하며 데이터 마이닝 분야에서 클러스터들간의 응집도를 측정하는 방법으로도 사용하는 측도를 무엇이라 하는가?
 답 : 코사인 유사도(cosine similiarity)

문제 9) p개의 독립변수로 사건 E가 발생할 확률을 예측하기 위한 로지스틱 회귀분석 모형을 의미하는 활성함수를 무엇이라 하는가? 단 P(E) : 사건 E가 발생할 확률이다.
 답 : 시그모이드 함수

문제 10) 대뇌피질의 시각피질을 모델화한 인공신경망의 일종으로 비지도 학습에 의한 클러스터링 방법을 무엇이라 하는가?
 답 : 자기조직화지도(Self-organizing map, SOM)

문제 11) cm일 때 분산이 225이다. m로 환산은?
 답 : 225 / 10000 = 0.0225

 

 

728x90
반응형