데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-주성분분석(PCA)

자격증/ADsP(2023)

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-주성분분석(PCA)

huiyu 2023. 2. 22. 06:19

* 주성분 분석(PCA, Principal Component Analysis)
- 데이터를 분석할 때 변수의 개수가 많다고 활용하는 것이 꼭 좋은 것은 아님
- 오히려 변수가 '다중공선성'이 있을 경우 분석 결과에 영향을 줄 수도 있음
- 공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법
- 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수(주성분)를 만들고 분산을 극대화하는 변수로 축약함
- 주성분은 변수들의 선형결합으로 이루어져 있음
- 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화함

* 주성분 분석 할 때 고민해야 하는 것
- 공분산행렬과 상관계수행렬 중 어떤 것을 선택할 것인가?
- 주성분의 개수를 몇 개로 할 것인가?
- 주성분에 영향을 미치는 변수로 어떤 변수를 선택할 것인가?

* 공분산행렬(Default) : 상관계수 행렬
- 공분산 행렬은 변수의 측정단위 그대로 반영한 것,
- 상관계수 행렬은 모든 변수의 측정단위를 표준화한 것
- 공분산행렬을 이용한 경우 측정 단위를 그대로 반영하였기 때문에 변수들의 측정 단위에 민감
- 주성분분석은 거리를 사용하기 때문에 척도에 영향을 받는다.
- 설문조사처럼 모든 변수들이 같은 수준으로 점수화된 경우 공분산행렬을 사용
- 변수들의 scale이 서로 많이 다른 경우에는 상관계수행렬(correellation matrix)을 사용한다.

* 주성분분석(PCA) 해석
- Standard devication(표준편차) : 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근, 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다.
- Proportion of Variance(분산비율) : 각 분산이 전체 분산에서 차지하는 비중
- Cumulative Proportion(누적비율) : 분산의 누적 비율

해석)
- 첫 번째 주성분 분석 하나가 전체 분산의 62%를 설명하고 있다.
- 두 번쨰는 24.7%를 설명하고 있다.
- 반대로 이야기하면 첫 번째 주성분 부분만 수용했을 때 정보 손실은 (100-62) = 38%가 된다.

문제)
- 공분산 행렬을 사용할 때 측정단위에 매우 민감하다.
- 첫 두개의 주성분이 설명하는 분산은 86.7%다.
- 각 주성분 간에는 서로 독리브이 관계를 의미한다.
- 분산 비율(Proportion of Variance)이 커짐에 따라 주성분들이 설명하는 분산의 비율은 커진다.

728x90

'자격증 > ADsP(2023)' 카테고리의 다른 글

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-오분류표를 활용한 평가지표 (0)	2023.02.24
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-시계열 예측 기초개념 (0)	2023.02.23
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-모형평가 (1)	2023.02.21
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-회귀분석(Regression Analysis) (0)	2023.02.20
데이터분석 준 전문가(ADsP) 2과목 : 데이터 분석 기획 기초 개념 (0)	2023.02.19

현재글데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-주성분분석(PCA)

huiyu's blog

매일 기록하기 - 개발, 운동, 마라톤, 책, 영화, 여행

읽다, c#, 타이젠, 실기준비, OpenGL, 쓰다, 운동, 마라톤, 운동기록, Tizen, Unity, 도트찍기, 설치, 운동일지, 매일기록, WPF, C++, 알고리즘, 업무기록, 한식조리사,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

huiyu's blog