개발 321

Python Data Science 기초 함수 정리

기본 함수들 - unique() : 데이터의 고유 값들이 어떤 것이 있는지 확인 - nunique() : 고유한 값들의 갯수 - value_counts() : 고유 값별 데이터의 수 df_bike.season.value_counts() normalize 및 정렬(ascending) 옵션이 있다. df_bike.season.value_counts(normalize=True) df_bike.season.value_counts(normalize=True).round(2) 변수간 관계 : crosstab pd.crosstab(df_bike['weather'], df_bike['season']) 공통된 데이터로 그룹화 : groupby 예제 : cut을 기준으로 그룹화 한 후, price에 대한 min, max,..

개발/Data Science 2023.04.10

파이썬 Data Science 기초 - DataFrame index

1. pandas 패키지 가져오기 import pandas as pd pd.__version__ 2. DataFrame dict_data = dict(a=[1,2,3,4], shape=[7,34,1,9]) df = pd.DataFrame(dict_data) df df['a'] df.a df.shape ##기본 함수에 shape가 있어서 원하는 출력이 나오지 않음 df['shape'] **dir을 통해 지원 함수 조회 가능 dir(df) #함수명 조회 *변수명 확인 df.columns df.columns.values[0] #첫번째 column 가져오기 'a' df.columns.values[0]='b' ##b로바꿈 df.columns **rename 함수 : column 이름 변경 df = df.renam..

개발/Data Science 2023.04.08

머신러닝 지도학습 - KNN알고리즘

k-NN(k-Nearest Neighbor, k-최근접 이웃) - 특정 데이터를 k개의 인접한 요소를 기반으로 예측하는 지도학습 알고리즘 - 종속변수에 따라 분류모델과 회귀모델로 나눔 - k값이 1에 가까우면 과적합이 되며, 값이 커질수록 과소적합이 되기에 적절한 k값을 선택해야 한다. - 이진 분류시 k값을 짝수로 지정하는 경우 그 분류가 제대로 되지 않을 수 있기에 홀수로 지정 - 거리 기반 알고리즘이기 때문에 각 변수의 단위 및 정규화에 유의 - Test데이터와 가까운 k개의 Train 데이터의 y값들을 비교 - 분류와 회귀 문제를 모두 다룰 수 있음 1) 분류 문제를 다룰 때는 class 다수결로 결과 class 를 예측 2) 회귀 문제를 풀 때는 평균값을 결과값으로 예측 - 비모수 방식이며 in..

개발/Data Science 2023.04.07

머신러닝 지도학습 - 의사결정나무(Decision Tree)

의사결정나무(Decision Tree) - 의사결정나무란 의사결정 규칙(Decision Rule)을 나무구조로 도식화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류(Classificiation)하거나 예측(Regression)하는 계량적 분석 방법 - 분류 또는 예측이 나무구조의 If ~ then 형태의 추론규칙으로 표현되기 때문에 다른 분석 방법에 비하여 이해와 설명이 쉽다. - 회귀 분석과 달리 각종 가정 불필요하며 직관적이고 해석이 비교적 쉬움 - 종속변수가 명목형인 경우 분류 나무(Classification Tree), 연속형인 경우 회귀 나무(Regression Tree) 사용 - 의사결정나무를 여러 개 합쳐서 만든 모델 중 대표적인 것이 Random Forest 의사 결정 나무(Decis..

개발/Data Science 2023.04.06

머신러닝 개념

머신 러닝(Machine Learning) - 기계학습이라고도 하며 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 - 추정 및 추론에 중점을 두는 통계와는 달리 주로 예측에 초점을 맞추고 있음 - 주어진 기반으로 학습을 하여 비교적 일반화된 수식 또는 규칙이 담긴 모델을 생성하고 교정함 - 생성한 모델을 각 알고리즘의 고유한 평가지표 또는 범용 평가지표를 활용하여 평가함 머신러닝의 종류 1) 지도학습(Supervised Leaning) (or 교사 학습 / or 감독학습) - 학습 데이터 안에 입력값에 대한 출력값이 함께 제시됨 - 알고리즘은 입력값과 출력값 사이의 관계를 가장 잘 설명할 수 있는 '모델'을 찾음 - 이 '모델'을 사용하여 새로운 입력값에 대한 예측 수행 - 출력값이 수..

개발/Data Science 2023.04.05

주요확률분표 : 이산,연속,균등,이항,포아송,지수

1. 이산 & 연속 확률 - 확률 변수(Random Variable) : 표본 공간의 원소를 실수로 대응한 값 > 확률적인 과정(무작위 실험)의 결과를 수치적으로 표현하는 변수(일반적으로 X로 표기) > 상태공간(state space): 확률 변수 X가 취하는 모든 실수 집합 > 이산확률변수(discrete random variable) : 유한 개의 값으로 구성되어 있는 변수 > 연속확률변수(continuous random variable) : 주어진 실수 범위 내에서 연속적인 범위의 값을 지니는 변수 - 확률 분포 : 확률 변수와 그 값이 나올 수 있는 확률을 대응시켜 표시하는 것 - 확률 함수 : 확률 변수에 의하여 정의된 실수를 0과 1 사이의 실수(확률)에 대응시키는 함수 > 확률 변수의 종류에..

개발/Data Science 2023.04.04

통계 : 확률 & 베이즈 정리

1. 확률 (1) 확률 - 확(確)률(率)' : 확 : 굳을, 분명한, 률 : 비율 -> 분명한 비율. - Probability : probable : (어떤일이) 발생할 것 같은, 될 가능성이 높은 (2) 확률 실험 : E - 다음의 세가지를 만족할 때 확률실험 혹은 확률 시행이라 함. - (결과를 구하기 위해) 어떤 실험을 통해 나타나는 결과를 알지 못함 - 결과는 알지 못하지만 결과로 나타날 수 있는 가능한 경우를 알고 있음 - 동일한 실험을 ㅁ쳐 번이고 반복 가능 - 예제 : 동전 던지기 - 동전을 던지기 전에 '앞면'이 나올지 '뒷면'이 나올지 알 수 없음 - 가능한 결과는 '앞면'과 '뒷면' 중 하나임을 알고 있음 - 동전을 던지는 실험은 몇 번이고 반복 가능 (3) 표본 공간 : Ω (Sam..

개발/Data Science 2023.04.03

통계분석 : 위치 & 변이 통계량

1. 위치 통계량 (중심 경향성) - 위치 통계량은 데이터의 분포에서 중심 혹은 대푯값을 나타내는 통계량 - 주어지 데이터 집합의 분포를 요약하여 일반적인 위치를 대표하는 값으로 사용된다. - 가장 기본적인 위치 통계량은 평균, 평균은 모든 관측치의 합을 샘플 크기로 나눈 값이다. - 그 외에도 최빈값, 가중 평균 등의 위치 통계량이 있다. - 위치 통계량은 데이터의 특성에 따라 적합한 방법을 선택해야 한다. 예를 들어 데이터가 정규분포를 따른다면 평균을 사용하는 것이 적절하다. 그러나 데이터가 왜곡된 경우에는 중앙값이 더 나은 대푯값일 수 있다. (1) 평균 (산술 평균) 1) 주어진 수의 합을 수의 개수로 나눈 값 -> (a1 + a2 + a3 ... + an) / n 2) 특징 - 계산이 쉽고, 수..

개발/Data Science 2023.04.02

DataScience - 비계층적 군집분석

K-means 1. k-means 군집분석의 특징 - 임의의 k개의 점을 기반으로 가까운 거리의 데이터를 묶는 것과 더불어 평균을 활용하는 군집분석 기법 - 군집 개수(k)를 확정하기 위해 여러 번의 시행착오 필요 - 결과 고정을 위해 seed 설정 필요 2. 주요 함수 및 메서드 소개 sklearn - MinMaxScaler() - MinMax 정규화를 실시하는 sklearn의 함수 - fit()메서드로 규칙 모델을 만들고 transform()함수로 변환 실시 sklearn - StandardScaler() - 표준화를 실시하는 sklearn의 함수 - fit() 메서드로 규칙 모델을 만들고 transform()함수로 변환을 실시 sklearn - KMeans() - k-means 군집분석을 실시하는 ..

개발/Data Science 2023.03.27

Data Science - 상관분석

1. 상관분석 개요 - 두 변수의 선형관계를 확인하기 위해서 상관분석을 실시 - 두 수치형 변수의 비교는 Pearson's Correlation Coefficient를 확ㅇ니하며 그 외 다양한 상관계수 존재 - 상관계수가 0에 가까울수록 선형관계가 약하며, 절대값이 1에 가까울수록 선형관계가 강함 2. 다양한 상관 분석 Quantitiative Ordinal Nominal Quantitiative Pearson's Biserial Point Biserial Ordinal Biserial Spearman/Kendall Rank Biserial Nominal Point Biserial Rank Biserial Phi, L, C Lambda 3. 주요 함수 및 메서드 소개 pandas - corr() - pa..

개발/Data Science 2023.03.26
반응형