1. 이산 & 연속 확률
- 확률 변수(Random Variable) : 표본 공간의 원소를 실수로 대응한 값
> 확률적인 과정(무작위 실험)의 결과를 수치적으로 표현하는 변수(일반적으로 X로 표기)
> 상태공간(state space): 확률 변수 X가 취하는 모든 실수 집합
> 이산확률변수(discrete random variable) : 유한 개의 값으로 구성되어 있는 변수
> 연속확률변수(continuous random variable) : 주어진 실수 범위 내에서 연속적인 범위의 값을 지니는 변수
- 확률 분포 : 확률 변수와 그 값이 나올 수 있는 확률을 대응시켜 표시하는 것
- 확률 함수 : 확률 변수에 의하여 정의된 실수를 0과 1 사이의 실수(확률)에 대응시키는 함수
> 확률 변수의 종류에 따라 확률 질량 함수와 확률 밀도 함수로 나누어짐
1) 어떤 확률변수가 어떤 확률 분포에 대응할 떄, "확률분포에 따른다"라고 표현
- 예 : 주머니 속의 각 색깔의 공이 나타날 확률
-> 빨강 1/5, 초록 1/5, 노랑 1/5, 검정 1/5, 파랑 1/5
2) 확률분포함수 : 확률변수 x가 특정 실수 값 x를 취할 확률을 x의 함수로 나타낸 것
- 대상 변수가 이산변수이면 확률질량함수(probability mass function, PMF)
- 대상 변수가 연속변수이면 확률밀도함수(probability density function, PDF)
(1) 이산확률 분포
- 확률 변수가 취할 수 있는 값들이 이산적인(discrete) 경우의 확률 분포.
- 확률 변수가 취할 수 있는 값들이 유한개 또는 셀 수 있는(infinite countable) 경우 사용
- 예를 들어 동전 던지기의 경우 앞면(Heads) 또는 뒷면(Tails)가 나올 수 있으며, 각 확률은 1/2이다. 이러한 경우 베르누이 분포라고 부르며, 이산확률 분포의 대표적인 예시이다.
- 또 다른 예시로는 주사위 던지기의 경우 1부터 6까지의 정수값이 나올 수 있으며, 각각의 값이 나올 확률은 모두 돌일하다. 이러한 경우에는 균등분포라고 부르며, 이 또한 이산확률 분포의 대표적인 예시이다.
- 동전 3개를 던졌을 때 앞면이 나온 수의 확률 분포
-> P(X=0) = 8/1, P(X=1)=3/8, P(X=2)=3/8, P(X=3)=1/8
x | 0 | 1 | 2 | 3 |
P(X = x) | 1/8 | 3/8 | 3/8 | 1/8 |
* 개념 정리
> x: 확률 변수
> 확률 변수 x가 취할 수 있는 모든 실수들의 집합 : 상태공간 Sx = {0,1,2,3}
> 확률 변수 x의 상태공간이 유한집합, 셀 수 있는 무한집합 : 이산확률변수
> 확률 변수 x가 취하는 각 경우에 대한 확률을 표 또는 함수식으로 표현 : 확률 분포
(2) 확률질량함수
- 모든 실수 x에 대하여, f(x) >= 0
- 모든 f(x)의 합 = 1
- 누적분포함수 : F(x) = P(X<=x) =
각각의 이산함수분포의 합
(3) 연속확률분포
- 새로 교체한 전등의 수명
-> 언제 수명이 다할까? 수명이 다할 때 까지의 시간은?
> x : 확률 변수
> 확률 변수 x가 취할 수 있는 모든 실수들의 집합 : 상태공간 Sx = {x:x>=0}
> 확률 변수 x의 연속인 구간에서 값을 가질 때 : 연속 확률 변수
> 확률변수 x가 취하는 각 경우에 대한 확률을 함수식으로 나타내는 것 : 확률분포
(4) 확률밀도함수 : 연속확률 변수의 확률을 계산하기 위한 함수
* 연속확률분포는 특정한 값을 넣었을 때 딱! 나오는게 아니고 어느 구간을 잡고 그 구간의 면적을 기준으로 확률을 말한다.
(5) 이산확률분포의 기대값과 분산
- 이산확률분포의 기대값(평균)
- 이산확률분포의 분산
- 기대값의 특성
- 분산의 특성
2. 균등분포(Unitform Distribution)
- 확률분포 함수가 정의된 모든 곳에서 값이 일정한 분포
- 이산확률변수인 경우,
- 연속확률변수인 경우,
3. 이항분포 (Binomial Distribution)
- 베르누이 실험 또는 베르누이 시행에 기초하고 있으며 베르누이 시행을 n번 반복하면 이항실험이 된다.
- 조건
1) 시행을 n번 반복한다.
2) 각 시행은 성공과 실패라는 상호 배타적인 결과를 갖는다.
3) n번의 시행은 독립적이다.
4) 한 번 시행할 때 성공확률 p와 실패확률(1-p)는 시행할 때마다 동일하다.
5) 확률 변수 X는 n번 시행 중에서 성공 횟수를 의미한다.
- n : 시행 횟수
- x : 성공 횟수
- p : 한번 시행에서의 성공 확률
- q : 한번 시행에서의 실패 확률(q=1-p)
* 이항분포의 형태는 모수인 시행횟수 n과 성공확률 p의 값에 따라 결정된다.
- 만일 성공확률 p = 0.5에 가까우면 시행횟수 n 의 크기에 관계없이 이항분포는 좌우대칭의 종모양을 나타낸다.
- 반대로 시행횟수 n이 크면 성공확률 p의 크기에 관계없이 이항 분포는 좌우대칭을 이룬다.
- 만일 p <1/2이고, n이 작은 경우에 이항분포는 오른쪽 꼬리분포를 나타낸다.
-만일 p > 1/2이고, n이 작은 경우에 이항분포는 왼쪽 꼬리 분포를 나타낸다.
* 기대값과 분산
4. 포아송분포(Poisson Distribution)
- 일정한 단위 시간, 단위거리, 단위 면적과 같이 어떤 구간에서 어떤 사건이 랜덤하게 발생하는 경우에 사용할 수 있는 이산형 확률 분포
1) 적용 조건
- 구간마다 발생하는 사건은 서로 독립적이다.
- 사건의 발생확률은 구간의 길이에 비례한다.
- 아주 작은 구간에서 사건이 발생할 확률은 무시할 만하다.
- 구간마다 확률분포는 일정하다.
2) 활용 예
- 1시간 동안 은행에 방문하는 고객의 수
- 1시간 동안 콜센터로 걸려오는 전화의 수
- 책 1페이지당 오탈자가 발생하는 건수
- 반도체 웨이퍼 25장 당 불량 건수
*람다가 커지면 커질수록 정규분포에 가까워짐!
5. 지수 분포(Exponetntial Distribution)
- 사건이 서로 독립일 때, 일정 시간동안 발생하는 사건의 횟수가 포아송분포를 따른다면, 다음 사건이 일어날 때 까지 대기시간이 지수 분포
- 첫 번 째 사건이 일어날 때까지 걸리는 시간에 대한 연속 확률분포
- 항상 양의 값만 갖고 평균 = 1/ λ, 분산 = 1 / λ^2
* 무기억성 : 어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음
* 지수분포함수
'Software Development > Data Science' 카테고리의 다른 글
머신러닝 지도학습 - 의사결정나무(Decision Tree) (0) | 2023.04.06 |
---|---|
머신러닝 개념 (0) | 2023.04.05 |
통계 : 확률 & 베이즈 정리 (0) | 2023.04.03 |
통계분석 : 위치 & 변이 통계량 (0) | 2023.04.02 |
DataScience - 비계층적 군집분석 (0) | 2023.03.27 |