개발/Data Science

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-주성분분석(PCA)

huiyu 2023. 2. 22. 06:19

* 주성분 분석(PCA, Principal Component Analysis)
 - 데이터를 분석할 때 변수의 개수가 많다고 활용하는 것이 꼭 좋은 것은 아님
 - 오히려 변수가 '다중공선성'이 있을 경우 분석 결과에 영향을 줄 수도 있음
 - 공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법
 - 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수(주성분)를 만들고 분산을 극대화하는 변수로 축약
 - 주성분은 변수들의 선형결합으로 이루어져 있음
 - 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화함

* 주성분 분석 할 때 고민해야 하는 것
 - 공분산행렬과 상관계수행렬 중 어떤 것을 선택할 것인가?
 - 주성분의 개수를 몇 개로 할 것인가?
 - 주성분에 영향을 미치는 변수로 어떤 변수를 선택할 것인가?

* 공분산행렬(Default) : 상관계수 행렬
 - 공분산 행렬은 변수의 측정단위 그대로 반영한 것,
 - 상관계수 행렬은 모든 변수의 측정단위를 표준화한 것
 - 공분산행렬을 이용한 경우 측정 단위를 그대로 반영하였기 때문에 변수들의 측정 단위에 민감
 - 주성분분석은 거리를 사용하기 때문에 척도에 영향을 받는다.
 - 설문조사처럼 모든 변수들이 같은 수준으로 점수화된 경우 공분산행렬을 사용
 - 변수들의 scale이 서로 많이 다른 경우에는 상관계수행렬(correellation matrix)을 사용한다.

* 주성분분석(PCA) 해석
 - Standard devication(표준편차) : 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근, 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다.
- Proportion of Variance(분산비율) : 각 분산이 전체 분산에서 차지하는 비중
- Cumulative Proportion(누적비율) : 분산의 누적 비율

해석)
 - 첫 번째 주성분 분석 하나가 전체 분산의 62%를 설명하고 있다.
 - 두 번쨰는 24.7%를 설명하고 있다.
 - 반대로 이야기하면 첫 번째 주성분 부분만 수용했을 때 정보 손실은 (100-62) = 38%가 된다.

문제)
 - 공분산 행렬을 사용할 때 측정단위에 매우 민감하다.
 - 첫 두개의 주성분이 설명하는 분산은 86.7%다.
 - 각 주성분 간에는 서로 독리브이 관계를 의미한다.
 - 분산 비율(Proportion of Variance)이 커짐에 따라 주성분들이 설명하는 분산의 비율은 커진다.

728x90
반응형