문제 1) 다음 중 지수 평활법에 대한 설명 중 가장 적절하지 않은 것은?
1) 지수 평활법은 최근에 가까운 자료일수록 과거의 자료보다 지수적으로 더 높은 가중치를 부여되어 예측치에 반영한다.
2) 지수적으로 평활하는 기법 중에서 가장 단순한 방법을 "단순 지수평활"이라고 하고, 이 방법은 추세나 계절성 패턴이 없는 데이터를 예측할 때 적합하다.
3) 지수평활법은 추세가 있는 경우 활용하지 못한다.
4) 지수 평활 계수는 과거로 갈수록 지수적으로 감소한다.
* 해설
- 지수평활법은 일정 기간의 평균을 이용하는 이동 평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법이다.
- 단순 지수평활법의 단점은 추세가 있는 경우 잘 모델링하지 못한다는 점이지만 이를 보완한 이중 지수평활법이 있다.
문제 2) 다음 중 표본조사에 대한 설명 중 가장 적절하지 않는 것은?
1) 표본 통계량으로 모수를 추정할 떄 표본 오차와 비표본오차가 발생할 수 있다.
2) 표본 편의는 모형 추론 방법으로 최소화하거나 없앨 수 있다.
3) 표본 오차(Sampling error)는 모집단으로부터 표본을 추출할 때 생기는 자연 발생적인 변동을 나타낸다.
4) 표본오차는 표본추출 그자체에 기인하는 문제점으로 설계상 문제나 대표성 부족 등으로 발생한다.
* 해설
- 표본편의는 모수를 크게 또는 작게 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 의미한다. 이런 표본편의는 확률화에 의해 최소화하거나 없앨 수 있다.
- 확률화란 모집단으로부터 편의되지 않는 표본을 추출하는 절차를 의미한다.
문제3) 다음 중 연관분석을 위해 apriori 함수를 활용하여 연관규칙을 생성한 후에 생성된 연관규칙을 확인하기 위해 사용하는 함수는?
1) sort()
2) rule()
3) inspect()
4) transaction()
* 연관규칙의 개별 규칙는 inspect()함수를 통해 확인할 수 있다.
문제 4) biplot
1) biplot은 각 개체들의 첫번쨰 주성분(=행), 두번쨰 주성분(=열) 값을 나타내는 행렬도를 시각화한 것이다.
2) 벡터의 길이가 원변수의 분산을 표현하며, 길수록 분산이 크다.
3) biplot그림에서 화살표는 원변수와 PC의 상관계쑤를 뜻하며, PC와 평행할수록 해당 PC에 큰 영향이 있음을 의미한다.
문제 5) Scree Plot
- 고윳값을 가장 큰 값에서 가장 작은 값을 순서로 정렬해 보여줌(1보다 큰 값 사용)
1) 주성분의 고윳값 크기를 보여주는 스크리 그림이다.
2) 몇 개의 주성분을 사용하여 차원축소를 진행할지 결정하기 위해 사용한다.
3) x축에 주성분을 놓고 y축에 해당 주성분에 대응하는 고윳값을 연결한 그림으로 그래프가 완만해지는 부분 이전까지의 주성분의 수를 선택한다.
* 분산 누적 비율은 스크리를 통해 알 수 없다.
문제 6) 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?
1) 종속변수가 이항변수인 일반적인 선형모형으로 가정하기 보다는 0~1사이의 값을 가지는 곡선형태의 모형으로 가정하는 것이 바람직하다.
2) 로지스틱 회귀모형은 회귀계수의 부호가 양수인 경우 S자모양, 회귀계수의 부호가 음수인 경우 역 S자 모양을 가진다.
3) 로지스틱 모형은 적절한 변환을 통하여 곡선을 직선형태로 바꿀 수 있으며, 이러한 변환을 로짓변환이라고 한다.
4) 판별분석과 로지스틱 회귀분석 모두 정규분포를 따르며 집단간 분산 - 공분산이 동일하다는 가정을 한다.
* 해설
- 로지스틱 회귀 분석에서는 독립변수에 대한 어떠한 가정도 필요로 하지 않는다.
- 판별 분석은 각 변수들간의 공분산 행렬이 동일하고 독립변수결합분포가 정규분포임을 가정한다.
문제 7) 인공신경망의 일반화 가중치(Generalized weights)에 대한 설명으로 가장 적절한 것은?
1) 일반화 가중치는 각 공변량들의 효과를 나타내는 것으로 로지스틱 회귀모형에서의 회귀계수와 유사하게 해석된다.
2) 일반화 가중치는 모든 공변량에 의존하므로 각 자료점에서 전역적인 기여도를 나타낸다.
(전역적인->지역적인(국소적인)
3) 모든 자료에 대한 일반화 가중치의 분포의 작은 분산은 비선형적인 효과가 있음을 나타낸다.
(비선형적인->선형적인)
4) 각 자료점의 분산이 로그 - 오즈에 미치는 기여도를 나타낸다.
(분산->공변량)
*단답형
문제 8) 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 슈한 정도를 의미하며 데이터 마이닝 분야에서 클러스터들간의 응집도를 측정하는 방법으로도 사용하는 측도를 무엇이라 하는가?
답 : 코사인 유사도(cosine similiarity)
문제 9) p개의 독립변수로 사건 E가 발생할 확률을 예측하기 위한 로지스틱 회귀분석 모형을 의미하는 활성함수를 무엇이라 하는가? 단 P(E) : 사건 E가 발생할 확률이다.
답 : 시그모이드 함수
문제 10) 대뇌피질의 시각피질을 모델화한 인공신경망의 일종으로 비지도 학습에 의한 클러스터링 방법을 무엇이라 하는가?
답 : 자기조직화지도(Self-organizing map, SOM)
문제 11) cm일 때 분산이 225이다. m로 환산은?
답 : 225 / 10000 = 0.0225
'자격증 > ADsP(2023)' 카테고리의 다른 글
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기출 16회 (0) | 2023.03.01 |
---|---|
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기출 15회 (0) | 2023.02.28 |
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기본문제 (0) | 2023.02.26 |
데이터분석 준 전문가(ADsP) 3과목 : 가설검정 (0) | 2023.02.25 |
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-오분류표를 활용한 평가지표 (0) | 2023.02.24 |