1. 상관분석 개요
- 두 변수의 선형관계를 확인하기 위해서 상관분석을 실시
- 두 수치형 변수의 비교는 Pearson's Correlation Coefficient를 확ㅇ니하며 그 외 다양한 상관계수 존재
- 상관계수가 0에 가까울수록 선형관계가 약하며, 절대값이 1에 가까울수록 선형관계가 강함
2. 다양한 상관 분석
Quantitiative | Ordinal | Nominal | |
Quantitiative | Pearson's | Biserial | Point Biserial |
Ordinal | Biserial | Spearman/Kendall | Rank Biserial |
Nominal | Point Biserial | Rank Biserial | Phi, L, C Lambda |
3. 주요 함수 및 메서드 소개
pandas - corr()
- pandas에서 상관계수를 실시하는 데이터프레임 전용 메서드
- method에 'pearson', 'kendall', 'spearman'는 각각의 상관계수로 계산
scipy - pearsonr()
- Pearson 상관분석을 실시하는 scipy의 함수
- 입력은 두 일차원 벡터를 넣고 출력은 상관계수와 p-value가 차례대로 출력
scipy - spearmanr()
- Spearman 상관분석을 실시하는 scipy의 함수
- 입력은 두 일차원 벡터를 넣고 출력은 상관계수와 p-value가 차례대로 출력
scipy - kendalltau()
- Kendall 상관분석을 실시하는 scipy의 함수
- 입력은 두 일차원 벡터를 넣고 출력은 상관계수와 p-value가 차례대로 출력
728x90
'Software Development > Data Science' 카테고리의 다른 글
통계 : 확률 & 베이즈 정리 (0) | 2023.04.03 |
---|---|
통계분석 : 위치 & 변이 통계량 (0) | 2023.04.02 |
DataScience - 비계층적 군집분석 (0) | 2023.03.27 |
Data Science - 파생변수 (0) | 2023.03.25 |
Data Science - 이상치 & 결측치 (0) | 2023.03.24 |