개발/Data Science

통계 : 확률 & 베이즈 정리

huiyu 2023. 4. 3. 06:07

1. 확률

 (1) 확률
  - 확(確)률(率)' : 확 : 굳을, 분명한, 률 : 비율 -> 분명한 비율.
  - Probability : probable : (어떤일이) 발생할 것 같은, 될 가능성이 높은

 (2) 확률 실험 : E
  - 다음의 세가지를 만족할 때 확률실험 혹은 확률 시행이라 함.

- (결과를 구하기 위해) 어떤 실험을 통해 나타나는 결과를 알지 못함
- 결과는 알지 못하지만 결과로 나타날 수 있는 가능한 경우를 알고 있음
- 동일한 실험을 ㅁ쳐 번이고 반복 가능

- 예제 : 동전 던지기

- 동전을 던지기 전에 '앞면'이 나올지 '뒷면'이 나올지 알 수 없음
- 가능한 결과는 '앞면'과 '뒷면' 중 하나임을 알고 있음
- 동전을 던지는 실험은 몇 번이고 반복 가능

(3) 표본 공간 : Ω (Sample sapce : S)
  - 확률실험으로부터 출현 가능한 모든 결과들의 모임
  - 예제 : 동전 던지기

Ω = {앞면, 뒷면} = {H, T}

(4) 사건 : 기호 알파벳 대문자로 표기
  - 사건 A, 사건 B
  - 표본 공간의 각 원소(출현 가능한 개별 결과)들의 부분집합
  - "사건이 발생했다" : 시행 결과가 관심있는 사건에 속하는 경우
  - 근원 사건 : 어떤 사건이 표본 공간상의 하나의 원소로 구성된 사건

예) 확률실험, 표본공간, 사건
 1) E1 : 동전을 2번 던져 나오는 면 관찰
   - 표본공간 : Ω1 = {HH, HT, TH, TT}
   - 사건 : 첫 번째 동전이 앞면이 나오는 사건, A1 = {HH, HT}
 2) E2 : 하루 중 인터넷 사용시간 관찰
   - 표본공간 : Ω2 = {0<=t<=24}
   - 사건 : 사용시간이 1시간 이하인 사건, A2 = {0<=t<=1}

(5) 사건의 연산 : 임의의 두 사건 A, B에 대하여
  1) 합 사건 : 어 떤 사건의 발생이 사건 A에서 일어나거나 혹은 사건 B에서 일어나는 사건


  2) 곱 사건 : 어떤 사건의 발생이 사건 A와 사건 B에서 동시에 일어나는 사건


  3) 여사건 : 사건 A가 발생하지 않을 사건


  4) 배반 사건 : 두 사건이 겹치는 부분이 없는 즉, 동시에 발생하지 않는 사건


  5) 독립 사건 : 두 사건이 서로의 발생에 영향을 끼치지 않는 사건

* 일정 조건 아래 동일한 실험을 지속적으로 N회 반복했을 때, 사건 A가 발생할 확률은

** 확률의 조건
  - 모든 확률의 합은 1
  - 각 확률의 값은 0~1의 값

(6) 확률의 덧셈 법칙
 - 일반적인 형태

- 배반사건인 경우

2. 조건부 확률(Conditional probability)

 - A가 발생한 상황 하에서 B가 발생할 확률
 * 주어진 사건이 일어낫다는 가정 하에 다른 한 사건이 일어날 확률

 - 공식

- 확률의 곱셈 법칙

  1) 일반적인 형태

  2) 독립인 경우

3. 베이즈 정리(Bayes' theorem)

 * 전확률의 법칙(Law of Total Probability)
  : 특정 사건의 확률은 조건부확률의 합으로 표현 가능.

* 사건 B의 원인을 제공하는 확률 P(Ai)를 사전 확률(Prior Probability)이라 하고,
 사건 B가 발생한 이후의 확률 P(Ai|B)를 사후 확률(Posterior probability)이라 함.

* 베이즈 정리는 조건부 확률을 이용하여 사전조건이 주어졌을 때 사후조건의 확률을 구하는 공식이다. 즉 두 확률 변수의 사전확률과 사후확률 사이의 관계를 나타내는 정리
 - 새로운 정보가 기존의 추론에 어떠한 영향을 미치는지 확인 가능
 - P(H) :사전 확률로 아직 사건에 관한 어떠한 정보도 알지 못하는 것을 의미
 - P(H|E) : 사후확률. 사건에 대한 정보 기반으로 계산된 확률
  - P(E|H) : 가능도. 사건이 발생했을 때 증거의 확률
  -P(E) : 증거(Evidence)

라인 하루 생산량 불량률
A1 1000 0.01 <- P(B|A1)
A2 2000 0.02 <- P(B|A2)
A3 3000 0.03 <- P(B|A3)

생산된 제품 중 불량(B)을 만날 때 이 불량품이 A1라인에서 생산되었을 확률은?

1. 제품이 각 라인에서 생산될 확률(사전확률)
  - P(A1) = 1000/6000
  - P(A2) = 2000/6000
  - P(A3) = 3000/6000

2. 제품이 불량일 확률-> P(B) * 전확률 공식으로 구하기!
 P(B) = P (A1 ∩ B) + P(A2 ∩ B) + P(A3 ∩ B)
         = P(A1)P(B|A1) + P(A2)P(B|A2) + P(A3)P(B|A3)
  **P(B|A1) : 제품A1이 있을때 불량품일 확률, 즉 0.01%

3. 문제, A1에서 불량이 나왔을 확률은.?
 P(A1|B) = P(A1∩B) / P(B)
P(A1|B) = (1000/6000) x 0.01    /    {(1000/6000)*0.01} + {(2000/6000)*0.02} + {(3000/6000)*0.03}
 = 0.0714

 **P(A1|B) : 생산된 제품 B가 있을 때, 그게 A1에서 생산됐을 확률(사후확률)

막대기가 있다고 다 사후확률이 아님!, 단순 조건부확률일지 사후확률일지 구분.

 

728x90
반응형