개발/Data Science

Data Science - 파생변수

huiyu 2023. 3. 25. 06:14

파생변수

- 기존 변수를 조합하여 만들어내는 새로운 변수

파생 변수의 예시

- 기온, 습도, 풍속을 조합하여 만든 체감온도 변수
- 물건 주문 건수와 환불 건수를 조합하여 만든 환불 비율 변수
- 기존 방문 매장 정보를 활용한 주 방문 매장 변수

 

주요 함수

numpy - where()

- 조건에 따라 두 개의 출력을 내는 함수
- if()함수를 대체할 수 있으며 조건, True일 때 반환값, False일 때 반환값을 차례대로 기입

pandas - rename()

- 데이터프레임의 변수명을 변경할 때 사용하는 메서드
- columns 인자에 기존 변수명과 신규 변수명의 쌍을 딕셔너리로 구성하여 입력.

pandas - apply()

- row 또는 column 방향으로 일괄 계산하는 메서드
- axis 인자 설정으로 연산 방향 설정 가능(axis=0은 row, axis=1은 column 방향)
- 사용자 정의 함수 또는 lambda 함수(일회성 함수)로 복잡한 연산 가능

pandas - astype()

- 시리즈의 속성을 변경할 때 사용하는 메서드
- "int"/"float"/"str"은 각각 정수/실수/문자열을 뜻하며 원하는 속성을 지정 및 변경

pandas - get_dummies()

- 편리한 가변수 생성(One Hot Encoding)을 도와주는 함수
- columns 인자에 명목형 변수 지정 및 처리 가능
- drop_first 인자에 True를 입력하면 마지막 가변수 제외 후 생성

 

 

728x90
반응형