* 홀드아웃(Hold Out)
- 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법
- 하나는 모형 학습 및 구축을 위한 훈련용 자료로 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법
- 과적합(Overfitting) 발생 여부를 확인하기 위해서 주어진 데이터의 일정 부분을 모델을 만드는 훈ㄹ녇 ㅔ이터로 사용하고, 나머지 데이터를 사용해 모델을 평가
- 잘못된 가설을 가정하게 되는 2종 오류의 발생 방지
* 교차 검증(Cross Validation)
- 데이터가 충분하지 않을 경우 Hold-out으로 나누면 많은 양의 분산 발생
- 이에 대한 해결책으로 교차검증을 사용할 수 있음, 그러나 클래스 불균형 데이터에는 적합하지 않음
- 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류 분석 모형의 평가 방법
*붓스트랩(Bootstrap)
- 평가를 반복하는 측면에서 교차검증과 유사하지만, 훈련용 자료를 반복 재선정하는 점에서 차이가 있는 평가 방법
- 붓스트랩은 관측치를 한 번 이상 훈련용 자료로 사용하는 복원 추출법에 기반함
- 전체 데이터 양이 크지 않을 경우의 모형 평가에 가장 적합
- 훈련 데이터를 63.2% 사용하는 0.632 붓스트랩 존재
* 데이터 분할 시 고려사항
- class의 비율이 한쪽에 치우쳐 있는 클래스 불균형 상태라면 다음 기법 사용을 고려한다
- under sampling : 적은 class 수에 맞추는 것
- over sampling : 많은 class 수에 맞추는 것
문제 1)
붓스트랩은 관측치를 한번 이상 훈련용 자료로 사용하는 복원추출법에 기반한다. 훈련용 자료의 선정을 d번 반복할 때 하나의 관측치가 선정되지 않을 확률은 (1-1 / d)^d이며 d가 크다고 가정했을 때 하나의 관측치가 선정되지 않을 확률은?
- 36.8%
* N번의 bootstrap sampling에서 d개의 샘플에서 하나를 무작위로 추출했을 때 선택되지 않을 확률은 36.8%
'자격증 > ADsP(2023)' 카테고리의 다른 글
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-시계열 예측 기초개념 (0) | 2023.02.23 |
---|---|
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-주성분분석(PCA) (0) | 2023.02.22 |
데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-회귀분석(Regression Analysis) (0) | 2023.02.20 |
데이터분석 준 전문가(ADsP) 2과목 : 데이터 분석 기획 기초 개념 (0) | 2023.02.19 |
데이터분석 준 전문가(ADsP) 1과목 : 데이터 이해 기초 개념 (0) | 2023.02.18 |