Software Development/Data Science 20

명목형 변수의 One Hot Encoding + 합치기

1. get_dummies() df_dum = pd.get_dummies(df_obj) df_dum 2. One-Hot Encoder from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(handle_unknown='ignore') #명목형만 빼서, X_train_obj = ohe.fit_transform(X_train[col_cate]) X_test_obj = ohe.transform(X_test[col_cate]) 3. One-Hot Encoding 적용 후 합치기 (1) concat 사용 X = pd.concat([df_screen_rem, df_dum], axis=1) (2) sparse 사용 from scipy import sp..

수학문제-확률과 통계

Q1. 눈이 1부터 6까지 있는 주사위를 두 번 던질 때 나오는 수 중 3의 배수가 존재할 확률은? -> 1 - (3배수가 나오지 않을 확률 x 3배수가 나오지 않을 확률) = 1 - (4/6) x (4/6) = 1 - (16/36) = 20/36 = 5/9 Q2. 주사위를 5회 던졌다고 가정했을 때 주사위의 숫자 중 관심있는 숫자 5가 3회 이상 나타날 확률은? (소수 세째자리) *이항분포의 확률 공식 P(X) = (n,k)p^x(1-p)^n-x (n,k) = nCk => n개중 k개를 고르는 경우의 수 = n! / k!(n-k)! *파이썬을 이용하기 1) 팩토리얼도 파이썬으로 import math math.factorial(5) / (math.factorial(5) * math.factorial(0)..

Python RandomForestRegressor

1. import RandomForestRegressor from sklearn.ensemble import RandomForestRegressor 2. 모델 생성 model = RandomForestRegressor() 3. 모델 학습 : fit model.fit(x_train, y_train) 4. 모델 검증 print(model.score(x_train, y_train)) print(model.score(x_test, y_test)) 5. 모델 예측 y_predict = model.predict(x_test) print(y_predict[0]) 6. 피쳐 중요도 확인 model.feature_importances_ ->feature_importances : 결정트리에서 노드를 분기할 때, 해당 피쳐..

python 함수 소소한 메모

변수명 재설정 : rename df1 = df1.rename(columns={'old_name':'new_name'}) df1 원하는 columns만 추출 col_name = ['A', 'B','C'] df1[col_name] apply 와 applymap ->lambda적용시 apply는 Series를 적용 합치기 concat, df의 'A', 'B' column을 df_origin의 'Res'와 합치기 df_result = pd.concat([df[['A','B']], df_origin['Res']], axis=1) df_result 'A' 값이 1인 'Res'의 평균, 'B'값이 1인 'Res'의 평균 mean_A = df_result.loc[df_result['A']==1,'Res'].mean()..

Python - lambda & 정규표현식 기초

python def 함수 def is_ABC(x): if(x=='ABC'): return 1 else: return 0 df['is_ABC'] = df['ABC'].apply(is_ABC) if: elif: else: lambda로 변경 df['is_ABC'] = df['ABC'].apply(lambda x: 1 if x=='ABC' else 0) ABC인경우 1, DEF인경우 2, 나머지 3인경우로 바꾸기 df['is_ABC'] = df['ABC'].apply(lambda x: 1 if x=='ABC' else (2 if x=='DEF' else 3)) df 정규표현식 import re #휴대폰 번호 추출 pattern = re.compile("010-[0-9]{4}-[0-9]{4}") pattern...

Python Data Science 기초 함수 정리

기본 함수들 - unique() : 데이터의 고유 값들이 어떤 것이 있는지 확인 - nunique() : 고유한 값들의 갯수 - value_counts() : 고유 값별 데이터의 수 df_bike.season.value_counts() normalize 및 정렬(ascending) 옵션이 있다. df_bike.season.value_counts(normalize=True) df_bike.season.value_counts(normalize=True).round(2) 변수간 관계 : crosstab pd.crosstab(df_bike['weather'], df_bike['season']) 공통된 데이터로 그룹화 : groupby 예제 : cut을 기준으로 그룹화 한 후, price에 대한 min, max,..

파이썬 Data Science 기초 - DataFrame index

1. pandas 패키지 가져오기 import pandas as pd pd.__version__ 2. DataFrame dict_data = dict(a=[1,2,3,4], shape=[7,34,1,9]) df = pd.DataFrame(dict_data) df df['a'] df.a df.shape ##기본 함수에 shape가 있어서 원하는 출력이 나오지 않음 df['shape'] **dir을 통해 지원 함수 조회 가능 dir(df) #함수명 조회 *변수명 확인 df.columns df.columns.values[0] #첫번째 column 가져오기 'a' df.columns.values[0]='b' ##b로바꿈 df.columns **rename 함수 : column 이름 변경 df = df.renam..