데이터 로드
##Tab을 두번 누르면 자동완성된다
df_krx = pd.read_csv('---.csv')
df_krx.head(2)
정확히 일치하는 데이터 찾을 때 : isin함수
##isin을 사용!, isin을 여러개 사용할땐 대괄호로!
df_krx300_krxban = df_krx.loc[df_krx.지수명.isin(['KRX 300', 'KRX 반도체'])]
df_krx300_krxban
가장 큰 데이터 찾기 max()
df_krx300_krxban.loc[df_krx300_krxban['거래대금'] == df_krx300_krxban['거래대금'].max(), '지수명']
idxmax() : idx최댓값 찾기
df_krx300_krxban.loc[df_krx300_krxban.loc[:,'거래대금'].idxmax()]
정렬은 sort_values()함수 사용
data_table['column'].sort_values(by='기준', asceding=True)
결측치 처리
- isna / fillna
-notna
df_iris = pd.read_csv('iris_missing.csv')
df_iris.head(2)
df_iris.isna()
setosa 기준으로 Sepal.Width 평균으로 Sepal.Width의 na값 변경하기
df_setosa = df_iris.loc[df_iris['Species']=='setosa']
mean = df_setosa['Sepal.Width'].mean()
mean
#fillna를 통해 값 채우기!!
df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'].fillna(mean)
df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'] = df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'].fillna(mean)
df_iris
fillna가 아닌 isna를 사용한 코드
df_iris.loc[(df_iris.Species=='setosa') & (df_iris['Sepal.Width'].isna()), 'Sepal.Width'] = mean
728x90
반응형