개발/Data Science

데이터분석 준 전문가(ADsP) 1과목 : 데이터 이해 기초 개념

huiyu 2023. 2. 18. 06:19

1. DIKW 피라미드 : 계층적 구성요소 속에서 역할을 수행하며 인간이 사회활동으로 추구하는 가치 창출을 위한 일련의 프로세스
 * Data -> Information -> Knowledge -> Wisdom

 - Data : 존재 형식 불문, 가공하기 전 순수 수치 & 기호
 - Information : 데이터 가공 및 상관관계 간 관계 패턴 의미 부여
 - Knowledge : 상호연결된 패턴을 이해한 결과물
 - Wisdom : 근본 원리에 대한 이해

2. 데이터베이스 솔루션
 * 1980 : OLTP, OLAP / 2000 : CRM/SCM
  - 교육부문 데이터베이스 솔루션 : NEIS
  - 의료부문 데이터베이스 솔루션 : PACS

* 실시간 기업(RTE:Real-Time Enterprise) : 가트너는 RTE를 '최신 정보를 사용해 자사의 핵심 비즈니스 프로세스들의 관리와 실행 과정에서 생기는 지연사태를 지속해서 제거함으로써 경쟁하는 기업'으로 정의
 -> 기업의 비즈니스 프로세스를 투명하고 민첩하게 유지하여 환경 변화에 따른 적응속도를 최대화 하여 지연 최소화

3. 빅 데이터 활용 기법
 - 연관 규칙 학습 : 어떤 변수간에 주목할 만환 관계가 있는지 확인
  ex) 마트에서 상관관계가 높은 상품 진열
 - 유형 분석 : 사용자가 어떤 특성을 가진 집단인가 확인
  ex) 온라인 수강생 특성 분류
 - 유전 알고리즘 : 최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간에 해야 하는가(최적화 메커니즘) 
  ex) 응급실에 환자를 어떤 의사에 배치할 것인가, 효율적인 차 개발을 위한 원자재+엔지니어링 조합
 - 기계학습 : 예측/추천
 - 회귀학습 : 구매자의 나이가 구매 차량의 타입에 어떤 영향을 주는지/독립 변수가 종속변수에 어떤 영
 - 감정 분석 / 감성 분석 : 고객의 평가에 대한 분석
 - 소셜 네트워크 분석 : 소셜 관계에 대한 분석

4. 빅 데이터 시대 위기 요인
 1) 사생활 침해
  -> '동의에서 책임'으로 전환
 2) 책임 원칙의 훼손 : 예측 알고리즘으로 인한 희생양 발생(ex) 범죄 예측 프로그램
  -> 책임 원칙 강화
 3) 데이터 오용 : 미래 예측은 기존 데이터에 의존으로 분석. 잘못된 인사이트가 발생할 수 있다.
  -> 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안 도입, 알고리즈미스트에 대한 역할 요구

5. 데이터 기본 용어 정리
 - OLTP(On-Line Transatction Processing) : 네트워크상의 여러 이용자가 실시간으로 데이터베이스의 데이터를 갱신하거나 조회하는 등의 단위작업을 처리하는 방식
 ex) 은행에서 수많은 입출금 등이 일어날 때
 - OLAP(On-Line Analytic Processing) : 정보 위주의 처리분석을 의미한다. 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술
 ex) 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱 하는 것
 - BA(Business Analytics) : 소프트웨어 데이터를 분석해 미래를 예측하거나(예측 분석), 특정 접근법을 적용했을 때 발생할 수 있는 일을 내다보는(처방적 분석) 기술의 도움을 받는 과정이다. 그래서 BA는 '고급 분석(advanced analytics)'이라고 불린다. 의사 결정을 위한 통계적이고 수학적인 분석에 초점
- BI(Business Intelligence) : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
- ERP : 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 솔루션
- Data Mining : 대용량 데이터로부터 의미 있는 관계, 규칙, 패턴을 찾는 과정
- 데이터 레이크(Data Lake) : 대규모의 다양한 원시 데이터셋을 기본형식으로 저장하는 데이터 리포지토리 유형. 데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환되며, 이러한 경우 스키마가 적용되어 데이터 분석이 가능해집니다. 이는 "읽기 스키마(Schema on read)"라고 불리는데, 데이터가 사용 준비 상태가 될 떄까지 원시 상태로 보관되기 때문이다.

* 딥 러닝에 활용되는 오픈소스 : Theano, 텐서플로(TensorFlow), 케라스(Keras), 토치(Torch), Caffe 등

6. 데이터 유형
 1) 정성적 데이터(Qualitative data)
 - 언어, 문자 등 형태와 형식이 정해져 있지 않음
 - 비정형 데이터 형태로 저장, 분석에 시간과 비용이 필요
 - 숫자나 금액으로 환산할 수 없는 것
 - 설문 조사 주관식 응답, 트위터, 페이스 북 등이 해당
 2) 정량적 데이터(Quantitative data)
 - 수치, 기호, 도형으로 표시
 - 데이터 양이 증가하더라도 저장, 분석 용이
 - 숫자나 금액으로 환산 가능한 것
 - 온도, 풍속, 강수량 등이 해당

728x90
반응형