카테고리 없음

파이썬 Data Science 기초 - Data 검색 / 결측치 처리

huiyu 2023. 4. 9. 06:49

데이터 로드

##Tab을 두번 누르면 자동완성된다
df_krx = pd.read_csv('---.csv')
df_krx.head(2)

정확히 일치하는 데이터 찾을 때 : isin함수

##isin을 사용!, isin을 여러개 사용할땐 대괄호로!

df_krx300_krxban = df_krx.loc[df_krx.지수명.isin(['KRX 300', 'KRX 반도체'])] 
df_krx300_krxban

가장 큰 데이터 찾기 max()

df_krx300_krxban.loc[df_krx300_krxban['거래대금'] == df_krx300_krxban['거래대금'].max(), '지수명']

idxmax() : idx최댓값 찾기

df_krx300_krxban.loc[df_krx300_krxban.loc[:,'거래대금'].idxmax()]

 

정렬은 sort_values()함수 사용

data_table['column'].sort_values(by='기준', asceding=True)

 

결측치 처리
- isna / fillna
-notna

df_iris = pd.read_csv('iris_missing.csv')
df_iris.head(2)

df_iris.isna()

 

setosa 기준으로 Sepal.Width 평균으로 Sepal.Width의 na값 변경하기

df_setosa = df_iris.loc[df_iris['Species']=='setosa']
mean = df_setosa['Sepal.Width'].mean()
mean

#fillna를 통해 값 채우기!!
df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'].fillna(mean)
df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'] = df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'].fillna(mean)

df_iris

fillna가 아닌 isna를 사용한 코드

df_iris.loc[(df_iris.Species=='setosa') & (df_iris['Sepal.Width'].isna()), 'Sepal.Width'] = mean

 

728x90
반응형