Software Development 378

통계 : 확률 & 베이즈 정리

1. 확률 (1) 확률 - 확(確)률(率)' : 확 : 굳을, 분명한, 률 : 비율 -> 분명한 비율. - Probability : probable : (어떤일이) 발생할 것 같은, 될 가능성이 높은 (2) 확률 실험 : E - 다음의 세가지를 만족할 때 확률실험 혹은 확률 시행이라 함. - (결과를 구하기 위해) 어떤 실험을 통해 나타나는 결과를 알지 못함 - 결과는 알지 못하지만 결과로 나타날 수 있는 가능한 경우를 알고 있음 - 동일한 실험을 ㅁ쳐 번이고 반복 가능 - 예제 : 동전 던지기 - 동전을 던지기 전에 '앞면'이 나올지 '뒷면'이 나올지 알 수 없음 - 가능한 결과는 '앞면'과 '뒷면' 중 하나임을 알고 있음 - 동전을 던지는 실험은 몇 번이고 반복 가능 (3) 표본 공간 : Ω (Sam..

통계분석 : 위치 & 변이 통계량

1. 위치 통계량 (중심 경향성) - 위치 통계량은 데이터의 분포에서 중심 혹은 대푯값을 나타내는 통계량 - 주어지 데이터 집합의 분포를 요약하여 일반적인 위치를 대표하는 값으로 사용된다. - 가장 기본적인 위치 통계량은 평균, 평균은 모든 관측치의 합을 샘플 크기로 나눈 값이다. - 그 외에도 최빈값, 가중 평균 등의 위치 통계량이 있다. - 위치 통계량은 데이터의 특성에 따라 적합한 방법을 선택해야 한다. 예를 들어 데이터가 정규분포를 따른다면 평균을 사용하는 것이 적절하다. 그러나 데이터가 왜곡된 경우에는 중앙값이 더 나은 대푯값일 수 있다. (1) 평균 (산술 평균) 1) 주어진 수의 합을 수의 개수로 나눈 값 -> (a1 + a2 + a3 ... + an) / n 2) 특징 - 계산이 쉽고, 수..

DataScience - 비계층적 군집분석

K-means 1. k-means 군집분석의 특징 - 임의의 k개의 점을 기반으로 가까운 거리의 데이터를 묶는 것과 더불어 평균을 활용하는 군집분석 기법 - 군집 개수(k)를 확정하기 위해 여러 번의 시행착오 필요 - 결과 고정을 위해 seed 설정 필요 2. 주요 함수 및 메서드 소개 sklearn - MinMaxScaler() - MinMax 정규화를 실시하는 sklearn의 함수 - fit()메서드로 규칙 모델을 만들고 transform()함수로 변환 실시 sklearn - StandardScaler() - 표준화를 실시하는 sklearn의 함수 - fit() 메서드로 규칙 모델을 만들고 transform()함수로 변환을 실시 sklearn - KMeans() - k-means 군집분석을 실시하는 ..

Data Science - 상관분석

1. 상관분석 개요 - 두 변수의 선형관계를 확인하기 위해서 상관분석을 실시 - 두 수치형 변수의 비교는 Pearson's Correlation Coefficient를 확ㅇ니하며 그 외 다양한 상관계수 존재 - 상관계수가 0에 가까울수록 선형관계가 약하며, 절대값이 1에 가까울수록 선형관계가 강함 2. 다양한 상관 분석 Quantitiative Ordinal Nominal Quantitiative Pearson's Biserial Point Biserial Ordinal Biserial Spearman/Kendall Rank Biserial Nominal Point Biserial Rank Biserial Phi, L, C Lambda 3. 주요 함수 및 메서드 소개 pandas - corr() - pa..

Data Science - 파생변수

파생변수 - 기존 변수를 조합하여 만들어내는 새로운 변수 파생 변수의 예시 - 기온, 습도, 풍속을 조합하여 만든 체감온도 변수 - 물건 주문 건수와 환불 건수를 조합하여 만든 환불 비율 변수 - 기존 방문 매장 정보를 활용한 주 방문 매장 변수 주요 함수 numpy - where() - 조건에 따라 두 개의 출력을 내는 함수 - if()함수를 대체할 수 있으며 조건, True일 때 반환값, False일 때 반환값을 차례대로 기입 pandas - rename() - 데이터프레임의 변수명을 변경할 때 사용하는 메서드 - columns 인자에 기존 변수명과 신규 변수명의 쌍을 딕셔너리로 구성하여 입력. pandas - apply() - row 또는 column 방향으로 일괄 계산하는 메서드 - axis 인자..

Data Science - 이상치 & 결측치

1. 이상치 - 이상치 : 중심 경향성에서 멀리 떨어진 값 - 이상치의 처리 방법 1) 이상치 처리에 절대적인 기준은 없음 2) 대표적으로 Carling, Tukey 방법이 존재 3) 분포 기반으로 처리도 가능 2. 결측치 - 결측치 : 갑싱 기록되지 않고 비어있음 - 결측치의 처리 방법 1) 결측치 처리에 절대적인 기준은 없음 2) 단순 제거와 특정 값으로 대체하는 방식이 있음 3) 분석 데이터에서 결측치가 차지하는 비중이 낮은 경우 단순 제거하는 경우가 많음 3. 판다스 함수 - pandas - isna(), iusnull() 1) 결측치 원소를 True, 관측치를 False로 반환하는 메소드 2) 반대의 기능을 하는 메서드는 notna()와 notnull() - pandas - fillna() 1)..

Android Sensor

센서 : https://developer.android.com/guide/topics/sensors/sensors_overview?hl=ko 센서 개요 | Android 개발자 | Android Developers 대부분의 Android 지원 기기에는 움직임, 방향 및 다양한 환경 조건을 측정하는 센서가 내장되어 있습니다. 이러한 센서는 높은 정밀도와 정확도로 원시 데이터를 제공하며 3차원으로 모니터링하 developer.android.com SensorManager : https://developer.android.com/reference/android/hardware/SensorManager SensorManager | Android Developers developer.android.com