개발/Data Science

데이터분석 준 전문가(ADsP) 2과목 : 데이터 분석 기획 기초 개념

huiyu 2023. 2. 19. 06:23

* 데이터 분석 기획이란?
 - 실제 분석을 수행에 앞엇 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
 - 어떤 목표(what)를 달성하기 위해 어떤 데이터를 가지고 어떤 방식(how)을 수행할지에 대한 일련의 계획을 수립하는 작업
 - 성공적인 분석 결과 도출을 위한 중요 사전 작업
 - 해당 문제 영역에 대한 전문석 및 역량 및 통계학적 지식을 활용한 분석 역량과 분석 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 함.


1. 분석의 대상(what) 및 분석의 방법(how)에 따라 4가지 유형 구분
 1) Optimization : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화의 형태로 수행
 2) Solution : 분석 과제는 수행되고, 분석 방법을 알지 못할 경우 솔루션을 찾는 방식으로 분석 과제 수행
 3) Insight : 분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트 도출
 4) Discovery : 분석 대상, 방법을 모른다면 발견을 통하여 분석 대상 자체를 새롭게 도출

  분석대상(what)
분석방법(how)   known un-known
known 최적화
(Optimization)
통찰(Insight)
un-known 솔루션
(Solution)
발견(Discovery)

* 분석의 대상이 명확하게 무엇인지 모르는 경우에 기존 분석 방식을 활용하여 새로운 지식을 도출하는 분석 주제 유형은? Insight

2. 분석 방법론
 - 데이터 분석을 효과적으로 기업에 정착하기 위해 데이터 분석을 체계화하는 절차와 방법이 정리된 데이터 분석 방법론 수립이 필요
 1) 분석 방법론의 구성 요소 : 상세한 절차(Procedure), 방법(Methods), 도구와 기법(Tools&Techniques), 템플릿과 산출물(Templates&Outputs)
 2) 기업의 합리적 의사결정 장애요소 : 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framining Effect)
 * Framinig Effect : 동일한 사건이나 상황임에도 불구하고 사람들의 선택이나 판단이 달라지는 현상으로, 특정 사안을 어떤 시각으로 바라보느냐에 따라 해석이 달라진다는 이론

3. 분석 방법론의 모델 3가지
 1) 폭포수 모델 (Wataerfall Model)
  - 단계를 순차적으로 진행하는 방법
  - 이전 단계가 완료되어야 다음 단계로 순차 진행하는 하향식 진행(Top Down)
  - 문제나 개선사항이 발견되면 전 단계로 돌아가는 피드백 수행
 2) 나선형 모델 (Siral Model) 
  - 반복을 통해 점증적으로 개발
  - 여러 번의 개발 과정을 거쳐 점진적으로 프로젝트를 완성해가는 모델
  - 처음 시도하는 프로젝트에 적용이 용이, 반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 프로젝트 진행이 어렵다.
  - 대규모 시스템 소프트웨어 개발에 적합
 3) 프로토타입 모델 (Prototype Model)
  - 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법
  - 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법
  - 신속하게 해결책 모형 제시, 상향적 접근 방법에 활용

4. KDD 분석 방법론
 - 데이터베이스에서 의미있는 지식을 탐색하는 데이터 마이닝, 기계학습, 인공지능, 패턴 인식, 데이터 시각화 등에 응용
 * 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
  1) 데이터 셋 선택
  2) 데이터 전처리(Pre-processing) : 데이터셋에 포함된 잡음(Noise), 이상값(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거
  3) 데이터 변환(Transformation) : 분석 목적에 맞는 변수 선택, 데이터의 차원 축소, 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터 셋 변경 작업
  4) 데이터 마이닝(Data Mining) : 변환된 데이터 세트를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터 분류 또는 예측 하는 등의 마이닝 작업 시행
  5) 데이터 마이닝 겨로가 평가(Interpretation / Evaluation) : 분석 결과에 대한 해석과 평가 그리고 활용.

5. CRISP-DM 분석 방법론
 - CRISP-DM(Cross Industry Standard Process For Data Mining) 프로세스는 6단계로 구성되어 있으며, 각 단계는 폭포수모델처럼 한 방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 완성도를 높인다.

* 화살표의 양방향(피드백)이 형성되는 구간 출제
* 6단계 : 업무 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개
 1) 업무 이해(Business Understanding)
  - 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계
  - 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
  - 업무 목적 파악 -> 상황 파악 -> 데이터 마이닝 목표 설정 -> 프로젝트 계획 수립으로 구성

 * KDD(데이터셋 선택/데이터 전처리) == CRISP-DM(데이터 이해)
2) 데이터 이해(Data Understanding)
  - 데이터 이해는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 구성되고, 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
  - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

* KDD의 Transformation == CRISP_DM 분석 방법론의 데이터 준비
3) 데이터 준비 (Data Preparation)
 - 데이터 준비는 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터 세트를 편성하는 단계로 많은 시간이 소요될 수 있음
 - 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 데이터 포매팅

4) 모델링(Modeling)
 - 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
 - 이 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋을 펴가하여 모델 과적합(Overfitting)의 문제를 발견하고 대응방안을 마련함
 - 데이터 분석 방법론, 머신 러닝을 이용한 수행 모델을 만들거나 데이터를 분할하는 부분
 - 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가로 구성

5) 평가(Evaluation)
 - 프로젝트의 목적에 부합하는지 모델 평가
 - 데이터 마이닝 결과 수용 여부를 최종적으로 판단
 - 분석 결과평가, 모델링 과정 평가, 모델 적용성 평가
 *모델링 과정 평가및 적용성 평가는 평가 단계이다.

6) 전개(Deployment) 
 - 모델링과 평가 단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지 보수 계획 마련
 - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 검토로 구성

6. ROI(Returun On Investment) 관점에서 빅데이터 4V

Volume 데이터의 크기/양 투자비용 요소
(Investment)
Variety 데이터 종류/유형
Velocity 데이터의 생성/처리 속도
Value 분석 결과 활용 및 실행을 통한 비즈니스 가치 비즈니스 효과 요소
(Return)

*Value는 비즈니스 효과에 해당

7. 데이터 분석 준비도 모델 및 수준 진단
 - 기업들은 데이터 분석의 도입 여부와 활용에 대해 명확하게 분석 수준을 점검할 필요가 있다.
 - 데이터 분석 수준 진단은 6개 영역의 분석 준비도와 3개 영역에서의 분석 성숙도를 함께 평가함으로써 수행

1) 분석 업무 파악 - 발생한 사실 여부 파악
- 예측 분석 업무
- 시뮬레이션 분석 업무
- 최적화 분석 업무
- 분석업무 정기적 개선
2) 인력 및 조직 - 분석 전문가 직무 존재
- 분석 전문가 교육 훈련 프로그램
- 관리자들의 기본적 분석 능력
- 전사 분석업무 총괄 조직 존재
- 경영진 분석업무 이해 능력
3) 분석 기법 - 업무별 적합한 분석기법 사용
- 분석업무 도입 방법론
- 분석기법 라이브러리
- 분석기법 효과성 평가
- 분석기법 정기적 개선
4) 분석 데이터 - 분석업무를 위한 데이터 충분성
- 분석업무를 위한 데이터 신뢰성
- 분석업무를 위한 데이터 적시성
- 비구조적 데이터 관리
- 외부 데이터 활용 체계
- 기준데이터 관리
5) 분석문화 - 사실에 근거한 의사결정
- 관리자의 데이터 중시
- 회의 등에서 데이터 활용
- 경영진의 직관보다 데이터
- 데이터 공유 및 협업 문화
6) IT 인프라 - 운영 시스템 데이터 통합
- EAI, ETL 등 데이터 유통 체계
- 분석 전용 서버 및 스토리지
- 빅데이터 분석 환경
- 통계 분석 환경
- 비주얼 분석 환경

8. 분석 과제 관리 프로세스 수립
 - 분석 과제 관리 프로세스는 과제 발굴과 과제 수행 및 모니터링으로 나누어진다.
 - 과제 발굴 단계에서는 개별조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제풀(pool)로 관리하면서 분석 프로젝트를 선정하는 작업을 수행한다.
 - 과제 수행 단계에세는 분석을 수행할 팀을 구성하고 분석 과제 수행할 떄 지속적인 모니터링과 과제 결과를 공유하고 개선하는 절차를 수행한다.
* 확정된 분석 과제는 풀(Pool)로 관리하지 않는다. 해당 과제를 진행하면서 만들어진 시사점, 아이디어는 Pool로 관리하면서 향후 유사한 분석 과제 수행 시 시행작오를 최소화하고 프로젝트를 효율적으로 진행할 수 있도록 관리해야 한다.

9. 데이터 거버넌스란
 - 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크, 저장소를 구축하는 것
 - 마스터 데이터, 메타 데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리 대상이다.
 -> 데이터 거버넌스를 구축함으로써 데이터의 가용성, 유용성, 통합성, 보안성, 안정성을 확보

10. 빅데이터 거버넌스와 데이터 거버넌스의 차이점
 - 빅데이터 거버넌스는 이러한 데이터 거버넌스의 체계에 더하여 빅데이터의 효율적인 관리,다양한 데이터의 관리체계, 데이터 최적화, 정보보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자 지정등을 포함한다.

11. 데이터 거버넌스의 구성요소
 1) 원칙 : 데이터를 유지 관리하기 위한 지침과 가이드 보안, 품질 관리, 변경관리
 2) 조직 : 데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트
 3) 프로세스 : 데이터 관리를 위한 활동과 체계, 작업절차, 모니터링 활동, 측정 활동

12. 데이터 거버넌스 체계 요소
 1) 데이터 표준화 : 데이터 표준 용어 설명, 명명 규칙, 메타 데이터 구축, 데이터 사전 구축
 2) 데이터 관리 체계 : 메타 데이터와 데이터 사전의 관리 원칙을 수립
 3) 데이터 저장소 관리 : 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성, 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조 변경에 따른 사전 영향 평가도 수행되어야 효율적인 활용이 가능
 4) 표준화 활동 : 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링 수행

728x90
반응형