개발/Data Science 47

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-오분류표를 활용한 평가지표

*오분류표를 활용한 평가 지표 - 정밀도(Precision) : 예측값이 True인 것에 대해 실제값이 True인 지표 - 재현율, 민감도(Recall, Sensitivity) : 실제값이 True인 것에 대해 예측값이 True인 지표 - F1 : 데이터가 불균형할 때 사용한다. 오분류표 중 정밀도와 재현율의 조화평균을 나타내며 정밀도와 재현율에 같은 가중치를 부여하여 평균한 지표 Precision TP / (TP + FP) Recall, Sensitivity TP / (TP + FN) F1 2 * (Precision * Recall) / (Precision + Recall) 특이도(Specificity) TN / (TN + FP) FP Rate FP / (FP + TN), 1- Specificity E..

개발/Data Science 2023.02.24

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-시계열 예측 기초개념

* 시계열 자료(time series) - 시계열 자료 : 시간의 흐름에 따라 관측된 데이터, 시계열 분석을 위해서는 정상성을 만족해야 함 - 정상성(stationary) : 시계열의 평균과 분산에 체계적인 변화 및 주기적 변동이 없다는 것, 미래는 확률적으로 과거와 동일하다는 것 - 정상 시계열의 조건 - 정상 시계열로 전환하는 방법 1) 비정상시계열 자료는 정상성을 만족하도록 데이터를 정상시계열로 만든 후 시계열 분석을 수행한다 2) 평균이 일정하지 않은 경우 : 원계열에 차분 사용 3) 계절성을 갖는 비정상시계열 : 계절차분 사용 4) 분산이 일정하지 않은 경우 : 원계열에 자연로그(변환)사용 - 차분 : 현 시점의 자료 값에서 전 시점의 자료 값을 빼주는 것을 의미 * 정상성 - 평균값은 시간 t..

개발/Data Science 2023.02.23

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-주성분분석(PCA)

* 주성분 분석(PCA, Principal Component Analysis) - 데이터를 분석할 때 변수의 개수가 많다고 활용하는 것이 꼭 좋은 것은 아님 - 오히려 변수가 '다중공선성'이 있을 경우 분석 결과에 영향을 줄 수도 있음 - 공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법 - 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수(주성분)를 만들고 분산을 극대화하는 변수로 축약함 - 주성분은 변수들의 선형결합으로 이루어져 있음 - 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화함 * 주성분 분석 할 때 고민해야 하는 것 - 공분산행렬과 상관계수행렬 중 어떤 것을 선택할 것인가? - 주성분의 개수를 몇 개로 ..

개발/Data Science 2023.02.22

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-모형평가

* 홀드아웃(Hold Out) - 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법 - 하나는 모형 학습 및 구축을 위한 훈련용 자료로 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법 - 과적합(Overfitting) 발생 여부를 확인하기 위해서 주어진 데이터의 일정 부분을 모델을 만드는 훈ㄹ녇 ㅔ이터로 사용하고, 나머지 데이터를 사용해 모델을 평가 - 잘못된 가설을 가정하게 되는 2종 오류의 발생 방지 * 교차 검증(Cross Validation) - 데이터가 충분하지 않을 경우 Hold-out으로 나누면 많은 양의 분산 발생 - 이에 대한 해결책으로 교차검증을 사용할 수 있음, 그러나 클래스 불균형 데이터에는 적합하지 않음 - 주어진 데이터를 가지고 반복적으로 성과를 측정..

개발/Data Science 2023.02.21

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-회귀분석(Regression Analysis)

* 용어 정리 1) 독립 변수 - 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수, 설명 변수라고도 함 - 입력 값이나 원인을 나타내는 변수, y = f(x) 에서 x에 해당 하는 것 2) 종속 변수 - 독립 변수의 영향을 받아 값이 변화하는 수, 분석의 대상이 되는 변수 - 결과물이나 효과를 나타내는 변수, y = f(x)에서 y에 해당 하는 것 3) 잔차(오차항) - 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이 - 오차(Error) : 모집단, 잔차(Residual) - 표본 집단 * 회귀 분석 - 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법 - 독립 변수의 값에 의해 종속 변수의 값을 예측하기 위함 - 일반 선형회귀는 종속변수가 연속형 변수일 때 가..

개발/Data Science 2023.02.20

데이터분석 준 전문가(ADsP) 2과목 : 데이터 분석 기획 기초 개념

* 데이터 분석 기획이란? - 실제 분석을 수행에 앞엇 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업 - 어떤 목표(what)를 달성하기 위해 어떤 데이터를 가지고 어떤 방식(how)을 수행할지에 대한 일련의 계획을 수립하는 작업 - 성공적인 분석 결과 도출을 위한 중요 사전 작업 - 해당 문제 영역에 대한 전문석 및 역량 및 통계학적 지식을 활용한 분석 역량과 분석 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 함. 1. 분석의 대상(what) 및 분석의 방법(how)에 따라 4가지 유형 구분 1) Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제..

개발/Data Science 2023.02.19

데이터분석 준 전문가(ADsP) 1과목 : 데이터 이해 기초 개념

1. DIKW 피라미드 : 계층적 구성요소 속에서 역할을 수행하며 인간이 사회활동으로 추구하는 가치 창출을 위한 일련의 프로세스 * Data -> Information -> Knowledge -> Wisdom - Data : 존재 형식 불문, 가공하기 전 순수 수치 & 기호 - Information : 데이터 가공 및 상관관계 간 관계 패턴 의미 부여 - Knowledge : 상호연결된 패턴을 이해한 결과물 - Wisdom : 근본 원리에 대한 이해 2. 데이터베이스 솔루션 * 1980 : OLTP, OLAP / 2000 : CRM/SCM - 교육부문 데이터베이스 솔루션 : NEIS - 의료부문 데이터베이스 솔루션 : PACS * 실시간 기업(RTE:Real-Time Enterprise) : 가트너는 R..

개발/Data Science 2023.02.18
반응형