개발/Data Science

통계분석 : 위치 & 변이 통계량

huiyu 2023. 4. 2. 15:57

1. 위치 통계량 (중심 경향성)
  - 위치 통계량은 데이터의 분포에서 중심 혹은 대푯값을 나타내는 통계량
  - 주어지 데이터 집합의 분포를 요약하여 일반적인 위치를 대표하는 값으로 사용된다.
  - 가장 기본적인 위치 통계량은 평균, 평균은 모든 관측치의 합을 샘플 크기로 나눈 값이다.
  - 그 외에도 최빈값, 가중 평균 등의 위치 통계량이 있다.
  - 위치 통계량은 데이터의 특성에 따라 적합한 방법을 선택해야 한다. 예를 들어 데이터가 정규분포를 따른다면 평균을 사용하는 것이 적절하다. 그러나 데이터가 왜곡된 경우에는 중앙값이 더 나은 대푯값일 수 있다.

 (1) 평균 (산술 평균)
   1) 주어진 수의 합을 수의 개수로 나눈 값
    -> (a1 + a2 + a3 ... + an) / n
   2) 특징 
    - 계산이 쉽고, 수학적으로 활용하기 편리하며 각 자료에 대해 유일한 값을 가짐
    - 분산의 계산, 모수 추정, 가설 검증 등 통계 분석의 대표적인 값으로 널리 사용된다.
    - 모든 자료로부터 영향을 받으므로 극단적인 값에 민감하여, 자료의 수가 적고 극단 값이 여러개인 경우 대푯값의 기능을 상실

 * 기하평균 & 조화 평균 & 가중 평균
  - 기하 평균(Geometric Mean) : n개의 양수 값을 모두 곱한 것의 n제곱근
  - 변화율의 평균(성장율, 인구 증가율, 물가상승률, 경제성장률과 같은)

  -> 여러 개의 숫자를 곱한 후, 그 개수의 제곱근으로 계산된 평균을 의미한다.
  예를 들어, 2, 8, 32, 128 네 개의 숫자가 잇다면, 이 숫자들을 곱한 값은 2 x 8 x 32 x 128 = 65,536이다.
  이 값의 제곱근은 256이므로, 이 네개 숫자의 기하 평균 값은 256이다.
 ** 산술평균은 합의 평균이고, 기하평균은 곱의 평균이다.

 - 조화 평균(Harmonic Mean) : 주어진 수들의 역수의 산술평균에 다시 역수를 취한 것

 -> 변량들의 역수의 산술평균을 구한 후 그것을 역수로 취한 평균, 조화평균은 기하 평균과 같이 표본들이 비율이나 배수이지만 각 표본값은 독립적이고 표본끼리 곱한 값이 의미가 없을 때, 효율이나 속도 처럼 역수가 의미 있을 때, 각 표본들이 비중이 같을 때 주로 쓰인다. 이런 표본 값은 그냥 산술평균을 하면 값이 큰 쪽이 작은 쪽보다 부당하게 높은 비중을 차지하는 것을 시정하고 공정하게 평균을 낼 수 있다. 성능이나 효율 속도 시간당 진도 통계 등에 그런 통계가 유효할 때가 많다. 예를 들어 여러 은행의 평균 이자율 이라든지 주식의 평균 주가 수익율이라든지 같은 것을 계산할 때 쓰는 게 좋다.(https://namu.wiki/w/평균)
 -> 대한민국에서 쉽게 볼 수 있는 조화평균으로는 한국 영화 평점 서비스 왓챠피디아의 평점이 있다. 평점이 50개를 넘어가면 조화평균으로 영화 평점을 구한다.


  : 산술-기하-조화 평균의 실생활 활용 사례는 옆 링크의 예시 참고 : https://ballpen.blog/산술-기하-조화-평균-개념-활용/

 

평균 - 산술, 기하, 조화 평균의 개념과 실생활 활용 - ilovemyage

평균 공식에는 산술, 기하, 조화 평균이 있습니다. 보통 산술 평균을 이용하나 때로는 기하나 조화 평균을 사용하기도 합니다. 이러한 평균의 개념과 실생활에서의 활용 사례를 소개합니다. 아

ballpen.blog

 

- 가중 평균(Weighted Mean) : 각 값에 대해 가중치를 적용한 후, 그 가중치의 합으로 나누어 계산

 

1-1. 그 외 값

(1) 중앙값(median) 
   - 데이터를 순서대로 나열할 때 가운데 있는 값
   - 데이터가 홀 수 개 : (n+1) / 2
   - 데이터가 짝수 개 :  n/2번째와 (n+2)/2번째 값의 평균

(2) 최빈값(mode)
   - 자료에서 가장 자주 나타나는, 빈도가 가장 많은 관측치
   - 평균/중위수와 달리 자료에 따라 존재하지 않을 수 있고 유일한 값이 아닐 수도 있음
   - 질적 변수에도 활용 가능

(3) 중앙값과 최빈값의 특징
   - 자료 속에 극단적인 이상치가 있는 경우 극단적 관찰치에 덜 민감한 중앙값이 대표값으로 사용될 수 있다.
   - 자료의 분포가 비대칭인 경우 평균의 보조자료로 이용할 수 있다.
   - 개방 구간을 갖는 도수분포표의 경우 중앙값 혹은 최빈값을 대표값으로 사용
   - 명목 자료와 서열 자료의 경우 평균과 중앙값을 계산할 수 없으므로 최빈값을 대표자료로 사용한다.

https://mambo-coding-note.tistory.com/118

 

2. 변이 통계량 (퍼짐 정도)
  * 자료 분포의 특성을 분석할 때 중심 경향성과 함께 산포도를 고려
   - 산포도 혹은 분산도(measure of disaperision)는 자료가 흩어져 있는 정도를 측정
   - 두 분포에서 자료의 흩어짐을 비교하는 데 이용
   - 분산도를 측정하는 요약 특성은 

- 범위 : 최대값과 최소값의 차이값
- 중간 범위 : 최대값과 최소값의 평균
- 평균절대편차 : 모든 데이터로부터 평균값을 뺀 값의 절대값의 평균
- 분산
- 표준편차
- 변동 계수

(1) 범위 : 자료에서 최대치와 최소치의 차이
(2) 중간 범위 : 최대치와 최소치의 합을 2로 나눈 값
(3) 평균절대편차(Mean Absolute Deviantion)
  - 모든 자료에 대한 편차의 절대 값을 더한 후(절대편차합) 자료수로 나눈 평균

* 평균값을 구함, 각 데이터에서 평균값을 뺀 값을 편차라고 한다. 편차를 다 더하면 0이 된다.
  ** 편차 : 자료에서 각 관찰 값이 자료의 평균으로부터 떨어진 정도
  -> 평균 절대 편차는 일련의 값들이 평균값으로부터 얼마나 떨어져 있는지를 나타내는 측도, 평균 절대 편차는 각 값과 평균값 사이의 차이를 모두 더한 후, 그 값을 전체 값의 개수로 나누어 계산된다. 즉 공식은
평균 절대 편차 = (|x₁ - 평균값| + |x₂ - 평균값| + ... + |xₙ - 평균값|) / n

*** 평균 절대 편차는 평균값에서의 편차를 측정하기 때문에, 이 값이 작을수록 데이터가 평균값 주변에 모여있음을 나타내며, 이 값이 클 수록 데이터가 넓게 흩어져 있음을 나타낸다. 평균절대편차는 분산과는 다른 개념이지만, 데이터의 분포를 측정하는 데에 유용하게 사용 될 수 있다.

(4) 분산(Variance)
 - 모든 편차를 제곱하고 이들을 합한 후 자료의 총수로 나눈 값
 -> 자료의 산포도를 나타내는 측도 중 하나로, 각 자료값과 평균 값 간의 차이를 제곱한 값의 평균이다. 즉 분산은 데이터가 평균에서 얼마나 벗어나 분산되어 있는지를 나타내는 지표이다.
 * 값이 작을 수록 데이터가 평균에 모여 있고, 값이 클 수록 데이터가 넓게 분포되어 있음을 나타낸다.

df = degree of freedom (자유도)

* 평균절대편차와 분산의 차이
 -> 평균절대편차는 데이터 값들이 평균값으로부터 얼마나 떨어져있나를, 분산은 각 데이터값과 평균값 값의 차이를 제곱한 값의 평균으로 나타낸다. 그로 인데 분산이 데이터 값들 간의 차이를 보다 더 크게 반영한다.

** 분산의 특징
 - 주어진 자료가 평균 주위로 얼마나 집중되어 있는가를 측정
 - 분산의 값이 작으면 자료의 변동이 심하지 않고 대체로 평균 가까이에 분포하고 있음을 의미
 - 분산은 각 자료에 대한 편차 제곱으로 구하므로 원자료의 단위와 달라짐
 - 표본분산은 모분산을 구하고자 할 때 추정치로서 사용
 -  표본분산 공식에선 n 대신 n-1을 사용 (편차 제곱합의 평균을 구하면 모분산을 과소추정)
 - (n-1)을 사용하여 모분산의 불편추정치(unbiased estimator)가 되도록 함 (자유도)

*** 자유도
 - 전체 데이터 중 실질적으로 독립적인 데이터들의 개수
 - 자유도 = 자료의 개수 - 1 **고정은 아님
 - 자유도를 고려하지 않은 표준 편차는 실제 값을 과소평가할 가능성이 높다.
 - 극단적으로 자료의 개수가 하나인 경우
  - 평균은 x이고 표준 편차는 자유도 고려하지 않을 경우 o
  - 자유도를 고려하면 계산 불가능 -> 자료 하나로부터 퍼진 정도를 알 수 없으므로 퍼진 정도는 알 수 없다가 적절한 답.

(5) 표준 편차
 - 분산의 제곱근
 - 분산의 제곱근인 표준편차를 구하면 원래 자료의 단위로 환원되어 같은 단위로 측정도니 평균이나 다른 통계량과 쉽게 비교할 수 있다.

(6) 변이 통계량의 특징
 - 자료가 흩어질수록 범위, 중간범위, 분산, 표준편차는 커짐
 - 자료가 평균 주위로 집중하면 범위, 중간범위, 분산, 표준편차는 작아짐
 - 자료가 모두 동일하면 범위, 중간범위, 분산, 표준편차는 0
 - 범위, 중간범위, 분산, 표준편차는 양수(+) 임.

 

(7) 변동 계수(변이 계수)
 - 표준 편차를 평균으로 나눈 값
 - Coefficient of variation(CV) / 상대 표준 편차(relative standard deviation)이라고 한다.
 - 서로 다른 데이터 간의 편차를 비교하는 방법
  1) 같은 항목을 다른 데이터 그룹 간에 비교(예:성별 간의 체중 편차 비교)
  2) 다른 항목을 비교(예 : 키와 체중의 편차 비교)

*** 변동 계수는 평균값에 대한 표준편차의 비율을 나타낸다.(표준편차를 평균으로 나눈 값)
  서로 다른 단위나 크기의 데이터를 비교할 때 유용.

예를 들어 A와 B라는 두 개의 데이터셋이 있다고 가정해보면, A는 평균값이 100이고 표준편차가 10이며, B는 평균값이 1000이고 표준편차가 100이라면, 표준편차 값으로는 B가 더 큰 변동폭을 가진다고 나타낸다.

그러나, 변동 계수를 살펴보면, A의 변동계수는 0.1(10%)이고 B의 변동 계수는 0.1(10%)로, 두 데이터 셋은 상대적으로 변동폭이 비슷하다는 것을 나타낸다.

따라서, 데이터의 상대적인 변동 크기를 비교해야할 땐, 변동 계수를 사용하는 것이 더 적절하다.

3. 모양 통계량(분포의 모양)

 (1) 백분위수
  - 자료를 크기 순으로 정리하여 백등분 하였을 때 각 등분점에 위치하는 자료

 (2) 사분위수
  - 100분위수 중 25번 째 백분위수를 1사분위수 Q1
  - 50번째 백분위수를 2사분위수 혹은 중앙값 Q2
  - 75번째 백분위수를 3사분위수 혹은 Q3이라고 함
  - 사분위수범위(IQR) : 1사분위수와 3사분위수의 차이

 (3)상자-수염 그림(boxplot)
  - 자료분포의 특성을 그래프로 요약하는 방법
  - 최소값, 1사분위수, 2사분위수(중앙값), 3사분위수, 최대값을 아래와 같이 표현
  - 자료의 분포가 대칭인지 또는 비대칭인지를 평가하고 두 자료의 분포 형태를 비교한다.

* 다섯 수치 요약

*왜도(skewness) & 첨도(kurtosis)
 - 왜도 : 오른쪽 or 왼쪽으로 꼬리가 치우친 형태. 오른쪽으로 긴 꼬리(Positive), 왼쪽으로 꼬리가 긴 경우(Negative)
 - 첨도 : 뾰족함의 정도, 

728x90
반응형