파이썬 Data Science 기초 - Data 검색 / 결측치 처리

카테고리 없음

파이썬 Data Science 기초 - Data 검색 / 결측치 처리

huiyu 2023. 4. 9. 06:49

데이터 로드

##Tab을 두번 누르면 자동완성된다
df_krx = pd.read_csv('---.csv')
df_krx.head(2)

정확히 일치하는 데이터 찾을 때 : isin함수

##isin을 사용!, isin을 여러개 사용할땐 대괄호로!

df_krx300_krxban = df_krx.loc[df_krx.지수명.isin(['KRX 300', 'KRX 반도체'])] 
df_krx300_krxban

가장 큰 데이터 찾기 max()

df_krx300_krxban.loc[df_krx300_krxban['거래대금'] == df_krx300_krxban['거래대금'].max(), '지수명']

idxmax() : idx최댓값 찾기

df_krx300_krxban.loc[df_krx300_krxban.loc[:,'거래대금'].idxmax()]

정렬은 sort_values()함수 사용

data_table['column'].sort_values(by='기준', asceding=True)

결측치 처리
- isna / fillna
-notna

df_iris = pd.read_csv('iris_missing.csv')
df_iris.head(2)

df_iris.isna()

setosa 기준으로 Sepal.Width 평균으로 Sepal.Width의 na값 변경하기

df_setosa = df_iris.loc[df_iris['Species']=='setosa']
mean = df_setosa['Sepal.Width'].mean()
mean

#fillna를 통해 값 채우기!!
df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'].fillna(mean)
df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'] = df_iris.loc[(df_iris.Species=='setosa'), 'Sepal.Width'].fillna(mean)

df_iris

fillna가 아닌 isna를 사용한 코드

df_iris.loc[(df_iris.Species=='setosa') & (df_iris['Sepal.Width'].isna()), 'Sepal.Width'] = mean

728x90

현재글파이썬 Data Science 기초 - Data 검색 / 결측치 처리

Today :
Yesterday :

운동일지, 실기준비, C++, 쓰다, 매일기록, 설치, WPF, Unity, 타이젠, 마라톤, 운동기록, c#, 읽다, Tizen, 알고리즘, 한식조리사, OpenGL, 도트찍기, 업무기록, 운동,

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

huiyu's blog

파이썬 Data Science 기초 - Data 검색 / 결측치 처리

'카테고리 없음'의 다른글

티스토리툴바