Software Development/Data Science 20

머신러닝 지도학습 - KNN알고리즘

k-NN(k-Nearest Neighbor, k-최근접 이웃) - 특정 데이터를 k개의 인접한 요소를 기반으로 예측하는 지도학습 알고리즘 - 종속변수에 따라 분류모델과 회귀모델로 나눔 - k값이 1에 가까우면 과적합이 되며, 값이 커질수록 과소적합이 되기에 적절한 k값을 선택해야 한다. - 이진 분류시 k값을 짝수로 지정하는 경우 그 분류가 제대로 되지 않을 수 있기에 홀수로 지정 - 거리 기반 알고리즘이기 때문에 각 변수의 단위 및 정규화에 유의 - Test데이터와 가까운 k개의 Train 데이터의 y값들을 비교 - 분류와 회귀 문제를 모두 다룰 수 있음 1) 분류 문제를 다룰 때는 class 다수결로 결과 class 를 예측 2) 회귀 문제를 풀 때는 평균값을 결과값으로 예측 - 비모수 방식이며 in..

머신러닝 지도학습 - 의사결정나무(Decision Tree)

의사결정나무(Decision Tree) - 의사결정나무란 의사결정 규칙(Decision Rule)을 나무구조로 도식화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류(Classificiation)하거나 예측(Regression)하는 계량적 분석 방법 - 분류 또는 예측이 나무구조의 If ~ then 형태의 추론규칙으로 표현되기 때문에 다른 분석 방법에 비하여 이해와 설명이 쉽다. - 회귀 분석과 달리 각종 가정 불필요하며 직관적이고 해석이 비교적 쉬움 - 종속변수가 명목형인 경우 분류 나무(Classification Tree), 연속형인 경우 회귀 나무(Regression Tree) 사용 - 의사결정나무를 여러 개 합쳐서 만든 모델 중 대표적인 것이 Random Forest 의사 결정 나무(Decis..

머신러닝 개념

머신 러닝(Machine Learning) - 기계학습이라고도 하며 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 - 추정 및 추론에 중점을 두는 통계와는 달리 주로 예측에 초점을 맞추고 있음 - 주어진 기반으로 학습을 하여 비교적 일반화된 수식 또는 규칙이 담긴 모델을 생성하고 교정함 - 생성한 모델을 각 알고리즘의 고유한 평가지표 또는 범용 평가지표를 활용하여 평가함 머신러닝의 종류 1) 지도학습(Supervised Leaning) (or 교사 학습 / or 감독학습) - 학습 데이터 안에 입력값에 대한 출력값이 함께 제시됨 - 알고리즘은 입력값과 출력값 사이의 관계를 가장 잘 설명할 수 있는 '모델'을 찾음 - 이 '모델'을 사용하여 새로운 입력값에 대한 예측 수행 - 출력값이 수..

주요확률분표 : 이산,연속,균등,이항,포아송,지수

1. 이산 & 연속 확률 - 확률 변수(Random Variable) : 표본 공간의 원소를 실수로 대응한 값 > 확률적인 과정(무작위 실험)의 결과를 수치적으로 표현하는 변수(일반적으로 X로 표기) > 상태공간(state space): 확률 변수 X가 취하는 모든 실수 집합 > 이산확률변수(discrete random variable) : 유한 개의 값으로 구성되어 있는 변수 > 연속확률변수(continuous random variable) : 주어진 실수 범위 내에서 연속적인 범위의 값을 지니는 변수 - 확률 분포 : 확률 변수와 그 값이 나올 수 있는 확률을 대응시켜 표시하는 것 - 확률 함수 : 확률 변수에 의하여 정의된 실수를 0과 1 사이의 실수(확률)에 대응시키는 함수 > 확률 변수의 종류에..

통계 : 확률 & 베이즈 정리

1. 확률 (1) 확률 - 확(確)률(率)' : 확 : 굳을, 분명한, 률 : 비율 -> 분명한 비율. - Probability : probable : (어떤일이) 발생할 것 같은, 될 가능성이 높은 (2) 확률 실험 : E - 다음의 세가지를 만족할 때 확률실험 혹은 확률 시행이라 함. - (결과를 구하기 위해) 어떤 실험을 통해 나타나는 결과를 알지 못함 - 결과는 알지 못하지만 결과로 나타날 수 있는 가능한 경우를 알고 있음 - 동일한 실험을 ㅁ쳐 번이고 반복 가능 - 예제 : 동전 던지기 - 동전을 던지기 전에 '앞면'이 나올지 '뒷면'이 나올지 알 수 없음 - 가능한 결과는 '앞면'과 '뒷면' 중 하나임을 알고 있음 - 동전을 던지는 실험은 몇 번이고 반복 가능 (3) 표본 공간 : Ω (Sam..

통계분석 : 위치 & 변이 통계량

1. 위치 통계량 (중심 경향성) - 위치 통계량은 데이터의 분포에서 중심 혹은 대푯값을 나타내는 통계량 - 주어지 데이터 집합의 분포를 요약하여 일반적인 위치를 대표하는 값으로 사용된다. - 가장 기본적인 위치 통계량은 평균, 평균은 모든 관측치의 합을 샘플 크기로 나눈 값이다. - 그 외에도 최빈값, 가중 평균 등의 위치 통계량이 있다. - 위치 통계량은 데이터의 특성에 따라 적합한 방법을 선택해야 한다. 예를 들어 데이터가 정규분포를 따른다면 평균을 사용하는 것이 적절하다. 그러나 데이터가 왜곡된 경우에는 중앙값이 더 나은 대푯값일 수 있다. (1) 평균 (산술 평균) 1) 주어진 수의 합을 수의 개수로 나눈 값 -> (a1 + a2 + a3 ... + an) / n 2) 특징 - 계산이 쉽고, 수..

DataScience - 비계층적 군집분석

K-means 1. k-means 군집분석의 특징 - 임의의 k개의 점을 기반으로 가까운 거리의 데이터를 묶는 것과 더불어 평균을 활용하는 군집분석 기법 - 군집 개수(k)를 확정하기 위해 여러 번의 시행착오 필요 - 결과 고정을 위해 seed 설정 필요 2. 주요 함수 및 메서드 소개 sklearn - MinMaxScaler() - MinMax 정규화를 실시하는 sklearn의 함수 - fit()메서드로 규칙 모델을 만들고 transform()함수로 변환 실시 sklearn - StandardScaler() - 표준화를 실시하는 sklearn의 함수 - fit() 메서드로 규칙 모델을 만들고 transform()함수로 변환을 실시 sklearn - KMeans() - k-means 군집분석을 실시하는 ..

Data Science - 상관분석

1. 상관분석 개요 - 두 변수의 선형관계를 확인하기 위해서 상관분석을 실시 - 두 수치형 변수의 비교는 Pearson's Correlation Coefficient를 확ㅇ니하며 그 외 다양한 상관계수 존재 - 상관계수가 0에 가까울수록 선형관계가 약하며, 절대값이 1에 가까울수록 선형관계가 강함 2. 다양한 상관 분석 Quantitiative Ordinal Nominal Quantitiative Pearson's Biserial Point Biserial Ordinal Biserial Spearman/Kendall Rank Biserial Nominal Point Biserial Rank Biserial Phi, L, C Lambda 3. 주요 함수 및 메서드 소개 pandas - corr() - pa..

Data Science - 파생변수

파생변수 - 기존 변수를 조합하여 만들어내는 새로운 변수 파생 변수의 예시 - 기온, 습도, 풍속을 조합하여 만든 체감온도 변수 - 물건 주문 건수와 환불 건수를 조합하여 만든 환불 비율 변수 - 기존 방문 매장 정보를 활용한 주 방문 매장 변수 주요 함수 numpy - where() - 조건에 따라 두 개의 출력을 내는 함수 - if()함수를 대체할 수 있으며 조건, True일 때 반환값, False일 때 반환값을 차례대로 기입 pandas - rename() - 데이터프레임의 변수명을 변경할 때 사용하는 메서드 - columns 인자에 기존 변수명과 신규 변수명의 쌍을 딕셔너리로 구성하여 입력. pandas - apply() - row 또는 column 방향으로 일괄 계산하는 메서드 - axis 인자..

Data Science - 이상치 & 결측치

1. 이상치 - 이상치 : 중심 경향성에서 멀리 떨어진 값 - 이상치의 처리 방법 1) 이상치 처리에 절대적인 기준은 없음 2) 대표적으로 Carling, Tukey 방법이 존재 3) 분포 기반으로 처리도 가능 2. 결측치 - 결측치 : 갑싱 기록되지 않고 비어있음 - 결측치의 처리 방법 1) 결측치 처리에 절대적인 기준은 없음 2) 단순 제거와 특정 값으로 대체하는 방식이 있음 3) 분석 데이터에서 결측치가 차지하는 비중이 낮은 경우 단순 제거하는 경우가 많음 3. 판다스 함수 - pandas - isna(), iusnull() 1) 결측치 원소를 True, 관측치를 False로 반환하는 메소드 2) 반대의 기능을 하는 메서드는 notna()와 notnull() - pandas - fillna() 1)..