변수명 재설정 : rename
df1 = df1.rename(columns={'old_name':'new_name'})
df1
원하는 columns만 추출
col_name = ['A', 'B','C']
df1[col_name]
apply 와 applymap
->lambda적용시 apply는 Series를 적용
합치기 concat, df의 'A', 'B' column을 df_origin의 'Res'와 합치기
df_result = pd.concat([df[['A','B']], df_origin['Res']], axis=1)
df_result
'A' 값이 1인 'Res'의 평균, 'B'값이 1인 'Res'의 평균
mean_A = df_result.loc[df_result['A']==1,'Res'].mean()
mean_B = df_result.loc[df_result['B']==1,'Res'].mean()
두 값의 절대값의 차, 반올림 2
round(abs(mean_4K-mean_8K),2)
**각 원소별 unique()추출
df.apply(lambda x:x.unique())
loc에 대해서 : https://m.blog.naver.com/wideeyed/221964700554
아래와 같이 True/False가 섞이 열 구조를 사용하여,
아래 코드와 같이 특정 True/False 값만 추수리기 가능
df1.loc[~to_be_deleted_no_internet,:]
#or df1.loc[to_be_deleted_no_internet,:]
**Replace기능, 오히려 값 대체는 replace 사용이 제일 쉬움
apply(lambda x: x.replace({'Yes': 1, 'No': 0}))
column 지우기
drop(columns='Name')
**상관계수 함수(corr)
df.corr()
#df.corr(method='pearson')
#df.corr(method='kendall')
#df.corr(method='spearman')
중복제거하기 : drop_duplicates()
=> 중복된 행이 제거된다.
col = ['user', 'gender', 'age_group', 'job', 'city', 'marital']
df_user = df[col].drop_duplicates()
합치기 merge & concat
merge는 how, left_index or left_on 정도 외워두기.
df_merge = df_user.merge(df_dum, how='left', left_index=True, right_index=True)
df_user = df_user.merge(df_sum, how='left',left_on='user', right_index=True)
pd.concat <<< pd, pandas의 concat이다!! axis=1이 옆으로 붙인다는 것, []로 묶어주기
X = pd.concat([df_screen_rem, df_dum], axis=1)
728x90
'Software Development > Data Science' 카테고리의 다른 글
로지스틱 회귀함수 (2) | 2023.04.14 |
---|---|
Python RandomForestRegressor (0) | 2023.04.13 |
Python - lambda & 정규표현식 기초 (0) | 2023.04.11 |
Python Data Science 기초 함수 정리 (0) | 2023.04.10 |
파이썬 Data Science 기초 - DataFrame index (2) | 2023.04.08 |