* 주성분 분석(PCA, Principal Component Analysis)
- 데이터를 분석할 때 변수의 개수가 많다고 활용하는 것이 꼭 좋은 것은 아님
- 오히려 변수가 '다중공선성'이 있을 경우 분석 결과에 영향을 줄 수도 있음
- 공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법
- 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수(주성분)를 만들고 분산을 극대화하는 변수로 축약함
- 주성분은 변수들의 선형결합으로 이루어져 있음
- 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화함
* 주성분 분석 할 때 고민해야 하는 것
- 공분산행렬과 상관계수행렬 중 어떤 것을 선택할 것인가?
- 주성분의 개수를 몇 개로 할 것인가?
- 주성분에 영향을 미치는 변수로 어떤 변수를 선택할 것인가?
* 공분산행렬(Default) : 상관계수 행렬
- 공분산 행렬은 변수의 측정단위 그대로 반영한 것,
- 상관계수 행렬은 모든 변수의 측정단위를 표준화한 것
- 공분산행렬을 이용한 경우 측정 단위를 그대로 반영하였기 때문에 변수들의 측정 단위에 민감
- 주성분분석은 거리를 사용하기 때문에 척도에 영향을 받는다.
- 설문조사처럼 모든 변수들이 같은 수준으로 점수화된 경우 공분산행렬을 사용
- 변수들의 scale이 서로 많이 다른 경우에는 상관계수행렬(correellation matrix)을 사용한다.
* 주성분분석(PCA) 해석
- Standard devication(표준편차) : 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근, 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다.
- Proportion of Variance(분산비율) : 각 분산이 전체 분산에서 차지하는 비중
- Cumulative Proportion(누적비율) : 분산의 누적 비율
해석)
- 첫 번째 주성분 분석 하나가 전체 분산의 62%를 설명하고 있다.
- 두 번쨰는 24.7%를 설명하고 있다.
- 반대로 이야기하면 첫 번째 주성분 부분만 수용했을 때 정보 손실은 (100-62) = 38%가 된다.
문제)
- 공분산 행렬을 사용할 때 측정단위에 매우 민감하다.
- 첫 두개의 주성분이 설명하는 분산은 86.7%다.
- 각 주성분 간에는 서로 독리브이 관계를 의미한다.
- 분산 비율(Proportion of Variance)이 커짐에 따라 주성분들이 설명하는 분산의 비율은 커진다.
'자격증 > ADsP(2023)' 카테고리의 다른 글
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-오분류표를 활용한 평가지표 (0) | 2023.02.24 |
---|---|
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-시계열 예측 기초개념 (0) | 2023.02.23 |
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-모형평가 (1) | 2023.02.21 |
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-회귀분석(Regression Analysis) (0) | 2023.02.20 |
데이터분석 준 전문가(ADsP) 2과목 : 데이터 분석 기획 기초 개념 (0) | 2023.02.19 |