자격증 131

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기본문제2

문제 1) 다음 중 지수 평활법에 대한 설명 중 가장 적절하지 않은 것은? 1) 지수 평활법은 최근에 가까운 자료일수록 과거의 자료보다 지수적으로 더 높은 가중치를 부여되어 예측치에 반영한다. 2) 지수적으로 평활하는 기법 중에서 가장 단순한 방법을 "단순 지수평활"이라고 하고, 이 방법은 추세나 계절성 패턴이 없는 데이터를 예측할 때 적합하다. 3) 지수평활법은 추세가 있는 경우 활용하지 못한다. 4) 지수 평활 계수는 과거로 갈수록 지수적으로 감소한다. * 해설 - 지수평활법은 일정 기간의 평균을 이용하는 이동 평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법이다. - 단순 지수평활법의 단점은 추세가 있는 경우..

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-기본문제

문제 1) 자료의 척도에 설명으로 부적절한 것은? 1) 명목척도는 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여한다. 2) 서열척도는 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다. 3) 등간척도는 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다. 4) 비율 척도는 측정값 사이의 비율 계산이 가능한 척도이며, 절대 영점이 존재하지 않는다. * 척도의 종류 명목척도(Nominal scale) - 단순히 측정대상의 특성을 분류하거나 확인하기 위한 목적 - 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함 - 성별, 혈액형, 출생지 등 서열(순위)척도(Ordinal Scale) - 대소 또는 높고 낮음 등의 순위만 제공할 ..

데이터분석 준 전문가(ADsP) 3과목 : 가설검정

* 용어 정리 - 가설 검정(Staticstical hypothesis testing) : 모집단에 대한 어떤 가설을 설정한 뒤에 표본 관찰을 통해 그 가설의 채택 여부를 결정하는 통계적 추론 방법 - 귀무가설(H0) : null hypothesis, 가설검정의 대상이 되는 가설, 연구자가 부정하고자 하는 가설. 설정한 가설이 진실할 확률이 극히 적어 청므부터 버릴 것(기각)이 예상되는 가설 - 대립가설(H1) : anti hypothesis, 귀무가설이 기각될 때 받아들여지는 가설, 연구자가 연구를 통해 입증 또는 증명되기를 기대하는 예상이나 주장 - 기각역(Critical region) : 검정통계량(t-value)의 분포에서 유의수준의 크기에 해당하는 영역, 계산한 검정통계량의 유의성(귀무가설의 기..

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-오분류표를 활용한 평가지표

*오분류표를 활용한 평가 지표 - 정밀도(Precision) : 예측값이 True인 것에 대해 실제값이 True인 지표 - 재현율, 민감도(Recall, Sensitivity) : 실제값이 True인 것에 대해 예측값이 True인 지표 - F1 : 데이터가 불균형할 때 사용한다. 오분류표 중 정밀도와 재현율의 조화평균을 나타내며 정밀도와 재현율에 같은 가중치를 부여하여 평균한 지표 Precision TP / (TP + FP) Recall, Sensitivity TP / (TP + FN) F1 2 * (Precision * Recall) / (Precision + Recall) 특이도(Specificity) TN / (TN + FP) FP Rate FP / (FP + TN), 1- Specificity E..

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-시계열 예측 기초개념

* 시계열 자료(time series) - 시계열 자료 : 시간의 흐름에 따라 관측된 데이터, 시계열 분석을 위해서는 정상성을 만족해야 함 - 정상성(stationary) : 시계열의 평균과 분산에 체계적인 변화 및 주기적 변동이 없다는 것, 미래는 확률적으로 과거와 동일하다는 것 - 정상 시계열의 조건 - 정상 시계열로 전환하는 방법 1) 비정상시계열 자료는 정상성을 만족하도록 데이터를 정상시계열로 만든 후 시계열 분석을 수행한다 2) 평균이 일정하지 않은 경우 : 원계열에 차분 사용 3) 계절성을 갖는 비정상시계열 : 계절차분 사용 4) 분산이 일정하지 않은 경우 : 원계열에 자연로그(변환)사용 - 차분 : 현 시점의 자료 값에서 전 시점의 자료 값을 빼주는 것을 의미 * 정상성 - 평균값은 시간 t..

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-주성분분석(PCA)

* 주성분 분석(PCA, Principal Component Analysis) - 데이터를 분석할 때 변수의 개수가 많다고 활용하는 것이 꼭 좋은 것은 아님 - 오히려 변수가 '다중공선성'이 있을 경우 분석 결과에 영향을 줄 수도 있음 - 공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법 - 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수(주성분)를 만들고 분산을 극대화하는 변수로 축약함 - 주성분은 변수들의 선형결합으로 이루어져 있음 - 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화함 * 주성분 분석 할 때 고민해야 하는 것 - 공분산행렬과 상관계수행렬 중 어떤 것을 선택할 것인가? - 주성분의 개수를 몇 개로 ..

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-모형평가

* 홀드아웃(Hold Out) - 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법 - 하나는 모형 학습 및 구축을 위한 훈련용 자료로 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법 - 과적합(Overfitting) 발생 여부를 확인하기 위해서 주어진 데이터의 일정 부분을 모델을 만드는 훈ㄹ녇 ㅔ이터로 사용하고, 나머지 데이터를 사용해 모델을 평가 - 잘못된 가설을 가정하게 되는 2종 오류의 발생 방지 * 교차 검증(Cross Validation) - 데이터가 충분하지 않을 경우 Hold-out으로 나누면 많은 양의 분산 발생 - 이에 대한 해결책으로 교차검증을 사용할 수 있음, 그러나 클래스 불균형 데이터에는 적합하지 않음 - 주어진 데이터를 가지고 반복적으로 성과를 측정..

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-회귀분석(Regression Analysis)

* 용어 정리 1) 독립 변수 - 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수, 설명 변수라고도 함 - 입력 값이나 원인을 나타내는 변수, y = f(x) 에서 x에 해당 하는 것 2) 종속 변수 - 독립 변수의 영향을 받아 값이 변화하는 수, 분석의 대상이 되는 변수 - 결과물이나 효과를 나타내는 변수, y = f(x)에서 y에 해당 하는 것 3) 잔차(오차항) - 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이 - 오차(Error) : 모집단, 잔차(Residual) - 표본 집단 * 회귀 분석 - 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법 - 독립 변수의 값에 의해 종속 변수의 값을 예측하기 위함 - 일반 선형회귀는 종속변수가 연속형 변수일 때 가..

데이터분석 준 전문가(ADsP) 2과목 : 데이터 분석 기획 기초 개념

* 데이터 분석 기획이란? - 실제 분석을 수행에 앞엇 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업 - 어떤 목표(what)를 달성하기 위해 어떤 데이터를 가지고 어떤 방식(how)을 수행할지에 대한 일련의 계획을 수립하는 작업 - 성공적인 분석 결과 도출을 위한 중요 사전 작업 - 해당 문제 영역에 대한 전문석 및 역량 및 통계학적 지식을 활용한 분석 역량과 분석 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 함. 1. 분석의 대상(what) 및 분석의 방법(how)에 따라 4가지 유형 구분 1) Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제..

데이터분석 준 전문가(ADsP) 1과목 : 데이터 이해 기초 개념

1. DIKW 피라미드 : 계층적 구성요소 속에서 역할을 수행하며 인간이 사회활동으로 추구하는 가치 창출을 위한 일련의 프로세스 * Data -> Information -> Knowledge -> Wisdom - Data : 존재 형식 불문, 가공하기 전 순수 수치 & 기호 - Information : 데이터 가공 및 상관관계 간 관계 패턴 의미 부여 - Knowledge : 상호연결된 패턴을 이해한 결과물 - Wisdom : 근본 원리에 대한 이해 2. 데이터베이스 솔루션 * 1980 : OLTP, OLAP / 2000 : CRM/SCM - 교육부문 데이터베이스 솔루션 : NEIS - 의료부문 데이터베이스 솔루션 : PACS * 실시간 기업(RTE:Real-Time Enterprise) : 가트너는 R..