파생변수
- 기존 변수를 조합하여 만들어내는 새로운 변수
파생 변수의 예시
- 기온, 습도, 풍속을 조합하여 만든 체감온도 변수
- 물건 주문 건수와 환불 건수를 조합하여 만든 환불 비율 변수
- 기존 방문 매장 정보를 활용한 주 방문 매장 변수
주요 함수
numpy - where()
- 조건에 따라 두 개의 출력을 내는 함수
- if()함수를 대체할 수 있으며 조건, True일 때 반환값, False일 때 반환값을 차례대로 기입
pandas - rename()
- 데이터프레임의 변수명을 변경할 때 사용하는 메서드
- columns 인자에 기존 변수명과 신규 변수명의 쌍을 딕셔너리로 구성하여 입력.
pandas - apply()
- row 또는 column 방향으로 일괄 계산하는 메서드
- axis 인자 설정으로 연산 방향 설정 가능(axis=0은 row, axis=1은 column 방향)
- 사용자 정의 함수 또는 lambda 함수(일회성 함수)로 복잡한 연산 가능
pandas - astype()
- 시리즈의 속성을 변경할 때 사용하는 메서드
- "int"/"float"/"str"은 각각 정수/실수/문자열을 뜻하며 원하는 속성을 지정 및 변경
pandas - get_dummies()
- 편리한 가변수 생성(One Hot Encoding)을 도와주는 함수
- columns 인자에 명목형 변수 지정 및 처리 가능
- drop_first 인자에 True를 입력하면 마지막 가변수 제외 후 생성
728x90
'Software Development > Data Science' 카테고리의 다른 글
통계 : 확률 & 베이즈 정리 (0) | 2023.04.03 |
---|---|
통계분석 : 위치 & 변이 통계량 (0) | 2023.04.02 |
DataScience - 비계층적 군집분석 (0) | 2023.03.27 |
Data Science - 상관분석 (1) | 2023.03.26 |
Data Science - 이상치 & 결측치 (0) | 2023.03.24 |