자격증/ADsP(2023)

데이터분석 준 전문가(ADsP) 3과목 : 데이터 분석-모형평가

huiyu 2023. 2. 21. 06:05

* 홀드아웃(Hold Out)
 - 원천 데이터를 랜덤하게 두 분류로 분리하여 교차검정을 실시하는 방법

 - 하나는 모형 학습 및 구축을 위한 훈련용 자료로 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법
 - 과적합(Overfitting) 발생 여부를 확인하기 위해서 주어진 데이터의 일정 부분을 모델을 만드는 훈ㄹ녇 ㅔ이터로 사용하고, 나머지 데이터를 사용해 모델을 평가
 - 잘못된 가설을 가정하게 되는 2종 오류의 발생 방지

* 교차 검증(Cross Validation)
 - 데이터가 충분하지 않을 경우 Hold-out으로 나누면 많은 양의 분산 발생
 - 이에 대한 해결책으로 교차검증을 사용할 수 있음, 그러나 클래스 불균형 데이터에는 적합하지 않음
 - 주어진 데이터를 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 분류 분석 모형의 평가 방법

*붓스트랩(Bootstrap)
- 평가를 반복하는 측면에서 교차검증과 유사하지만, 훈련용 자료를 반복 재선정하는 점에서 차이가 있는 평가 방법
- 붓스트랩은 관측치를 한 번 이상 훈련용 자료로 사용하는 복원 추출법에 기반함
- 전체 데이터 양이 크지 않을 경우의 모형 평가에 가장 적합
- 훈련 데이터를 63.2% 사용하는 0.632 붓스트랩 존재

* 데이터 분할 시 고려사항
 - class의 비율이 한쪽에 치우쳐 있는 클래스 불균형 상태라면 다음 기법 사용을 고려한다
 - under sampling : 적은 class 수에 맞추는 것
 - over sampling : 많은 class 수에 맞추는 것

문제 1) 
 붓스트랩은 관측치를 한번 이상 훈련용 자료로 사용하는 복원추출법에 기반한다. 훈련용 자료의 선정을 d번 반복할 때 하나의 관측치가 선정되지 않을 확률은 (1-1 / d)^d이며 d가 크다고 가정했을 때 하나의 관측치가 선정되지 않을 확률은?
 - 36.8%

* N번의 bootstrap sampling에서 d개의 샘플에서 하나를 무작위로 추출했을 때 선택되지 않을 확률은 36.8%

728x90