개발/Data Science

주요확률분표 : 이산,연속,균등,이항,포아송,지수

huiyu 2023. 4. 4. 06:18

1. 이산 & 연속 확률

 - 확률 변수(Random Variable) : 표본 공간의 원소를 실수로 대응한 값 
   > 확률적인 과정(무작위 실험)의 결과를 수치적으로 표현하는 변수(일반적으로 X로 표기)
   > 상태공간(state space): 확률 변수 X가 취하는 모든 실수 집합
   > 이산확률변수(discrete random variable) : 유한 개의 값으로 구성되어 있는 변수
   > 연속확률변수(continuous random variable) : 주어진 실수 범위 내에서 연속적인 범위의 값을 지니는 변수
     
 - 확률 분포 : 확률 변수와 그 값이 나올 수 있는 확률을 대응시켜 표시하는 것

 - 확률 함수 : 확률 변수에 의하여 정의된 실수를 0과 1 사이의 실수(확률)에 대응시키는 함수
  > 확률 변수의 종류에 따라 확률 질량 함수와 확률 밀도 함수로 나누어짐

 1) 어떤 확률변수가 어떤 확률 분포에 대응할 떄, "확률분포에 따른다"라고 표현
   - 예 : 주머니 속의 각 색깔의 공이 나타날 확률
    -> 빨강 1/5, 초록 1/5, 노랑 1/5, 검정 1/5, 파랑 1/5

  2) 확률분포함수 : 확률변수 x가 특정 실수 값 x를 취할 확률을 x의 함수로 나타낸 것
   - 대상 변수가 이산변수이면 확률질량함수(probability mass function, PMF)
   - 대상 변수가 연속변수이면 확률밀도함수(probability density function, PDF)

 (1) 이산확률 분포
   - 확률 변수가 취할 수 있는 값들이 이산적인(discrete) 경우의 확률 분포.
   - 확률 변수가 취할 수 있는 값들이 유한개 또는 셀 수 있는(infinite countable) 경우 사용
   - 예를 들어 동전 던지기의 경우 앞면(Heads) 또는 뒷면(Tails)가 나올 수 있으며, 각 확률은 1/2이다. 이러한 경우 베르누이 분포라고 부르며, 이산확률 분포의 대표적인 예시이다.
   - 또 다른 예시로는 주사위 던지기의 경우 1부터 6까지의 정수값이 나올 수 있으며, 각각의 값이 나올 확률은 모두 돌일하다. 이러한 경우에는 균등분포라고 부르며, 이 또한 이산확률 분포의 대표적인 예시이다.

  - 동전 3개를 던졌을 때 앞면이 나온 수의 확률 분포
    -> P(X=0) = 8/1, P(X=1)=3/8, P(X=2)=3/8, P(X=3)=1/8

x 0 1 2 3
P(X = x) 1/8 3/8 3/8 1/8

* 개념 정리
> x: 확률 변수
> 확률 변수 x가 취할 수 있는 모든 실수들의 집합 : 상태공간 Sx = {0,1,2,3}
> 확률 변수 x의 상태공간이 유한집합, 셀 수 있는 무한집합 : 이산확률변수
> 확률 변수 x가 취하는 각 경우에 대한 확률을 표 또는 함수식으로 표현 : 확률 분포

(2) 확률질량함수
 - 모든 실수 x에 대하여, f(x) >= 0
 - 모든 f(x)의 합 = 1
 - 누적분포함수 : F(x) = P(X<=x) = 

 각각의 이산함수분포의 합

(3) 연속확률분포
  - 새로 교체한 전등의 수명
    -> 언제 수명이 다할까? 수명이 다할 때 까지의 시간은?
   > x : 확률 변수
   > 확률 변수 x가 취할 수 있는 모든 실수들의 집합 : 상태공간 Sx = {x:x>=0}
   > 확률 변수 x의 연속인 구간에서 값을 가질 때 : 연속 확률 변수
   > 확률변수 x가 취하는 각 경우에 대한 확률을 함수식으로 나타내는 것 : 확률분포

(4) 확률밀도함수 : 연속확률 변수의 확률을 계산하기 위한 함수
  * 연속확률분포는 특정한 값을 넣었을 때 딱! 나오는게 아니고 어느 구간을 잡고 그 구간의 면적을 기준으로 확률을 말한다.

 

(5) 이산확률분포의 기대값과 분산

  - 이산확률분포의 기대값(평균)

 

  - 이산확률분포의 분산

  - 기대값의 특성

  - 분산의 특성

 

 2. 균등분포(Unitform Distribution)

    - 확률분포 함수가 정의된 모든 곳에서 값이 일정한 분포
    - 이산확률변수인 경우, 

   - 연속확률변수인 경우,

 

3. 이항분포 (Binomial Distribution)

 - 베르누이 실험 또는 베르누이 시행에 기초하고 있으며 베르누이 시행을 n번 반복하면 이항실험이 된다.
 - 조건
  1) 시행을 n번 반복한다.
  2) 각 시행은 성공과 실패라는 상호 배타적인 결과를 갖는다.
  3) n번의 시행은 독립적이다.
  4) 한 번 시행할 때 성공확률 p와 실패확률(1-p)는 시행할 때마다 동일하다.
  5) 확률 변수 X는 n번 시행 중에서 성공 횟수를 의미한다.

- n : 시행 횟수
- x : 성공 횟수
- p : 한번 시행에서의 성공 확률
- q : 한번 시행에서의 실패 확률(q=1-p)

* 이항분포의 형태는 모수인 시행횟수 n과 성공확률 p의 값에 따라 결정된다.
  - 만일 성공확률 p = 0.5에 가까우면 시행횟수 n 의 크기에 관계없이 이항분포는 좌우대칭의 종모양을 나타낸다.
  - 반대로 시행횟수 n이 크면 성공확률 p의 크기에 관계없이 이항 분포는 좌우대칭을 이룬다.
  - 만일 p <1/2이고, n이 작은 경우에 이항분포는 오른쪽 꼬리분포를 나타낸다.
  -만일 p > 1/2이고, n이 작은 경우에 이항분포는 왼쪽 꼬리 분포를 나타낸다.

 * 기대값과 분산

4. 포아송분포(Poisson Distribution)

  - 일정한 단위 시간, 단위거리, 단위 면적과 같이 어떤 구간에서 어떤 사건이 랜덤하게 발생하는 경우에 사용할 수 있는 이산형 확률 분포
  1) 적용 조건
    - 구간마다 발생하는 사건은 서로 독립적이다.
    - 사건의 발생확률은 구간의 길이에 비례한다.
    - 아주 작은 구간에서 사건이 발생할 확률은 무시할 만하다.
    - 구간마다 확률분포는 일정하다.

   2) 활용 예
    - 1시간 동안 은행에 방문하는 고객의 수
    - 1시간 동안 콜센터로 걸려오는 전화의 수
    - 책 1페이지당 오탈자가 발생하는 건수
    - 반도체 웨이퍼 25장 당 불량 건수

*람다가 커지면 커질수록 정규분포에 가까워짐!

 

5. 지수 분포(Exponetntial Distribution)

 - 사건이 서로 독립일 때, 일정 시간동안 발생하는 사건의 횟수가 포아송분포를 따른다면, 다음 사건이 일어날 때 까지 대기시간이 지수 분포
 - 첫 번 째 사건이 일어날 때까지 걸리는 시간에 대한 연속 확률분포
 - 항상 양의 값만 갖고 평균 = 1/ λ, 분산 = 1 / λ^2
 * 무기억성 : 어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음
 * 지수분포함수

 

728x90
반응형