본문 바로가기
카테고리 없음

[메가바이트스쿨] 기초통계수학 총정리

by 위시우 2022. 12. 2.

기초 통계

(1) 대푯값
(2) 분산도
  • 변동 계수

    • 상대적으로 얼마나 변동이 많은 지를 보기 위한 지표

      [a회사] 평균 매출액 100억 / 표준편차 12 -> cv = 12/ 100 = 0.12

      [b회사] 평균 매출액 40억 / 표준편차 2 -> cv = 2/40 = 0.05

      Implication : a회사가 b회사보다 크게 변동했음 → 더 큰 폭으로 매출 발생, 월간 변동이 많음 → 더 불안정

      변동계수(cv) = 표준편차 / 평균
  • 왜도 & 첨도

    • 왜도 (Skewness)

      얼마나 치우쳤냐

      분포의 비대칭도를 나타냄

      비대칭이 커질수록 왜도의 절대값은 증가

      왜도 -1 ~ + 1 범위는 치우침이 없는 데이터

      치우침이 있는 값은 대표값을 선정할 때 고민해줘야 함

    • 첨도(Kurtosis)

      얼마나 뾰족한가

      꼬리 부분의 길이 + 중앙 부분의 뾰족함으로 데이터 분포를 알 수 있음

      • Mesokurtic : 정규 분포 모양
      • Leptokurtic : 더 높고 뾰족 → 이상치(outilier)가 많을 수 있음
      • Platykurtic : 낮고 완만 , Leptokurtic의 반대 , 이상치(outlier) 가 없음,이상치가 없는 데이터는 이상함. → 데이터 다시 확인

      목표 : 결국 우리가 데이터 전처리할 때, 확인할 지표를 배운다!

(3) 기술 통계
  • 모집단 · 표본 · 샘플링 방법(1)

    image-20221201121841433
    • 모집단

      통계를 통해 알고 싶어하는 모든 집단

      모수(parameter): 모집단의 특성

    • 표본(sample)

      모집단에서 추출된 일부 집단

      통계량(statistic) : 표본의 특성

  • 추출(Sampling) : 모집단에서 표본을 추출하는 방법

  • 추론 (Inference) : 표본 통계량으로 모집단의 특성(모수)를 추론

  • 샘플링 방법

    • 확률 표본 추출

      단순 샘플링 (Simple Random Sampling) : 단순 랜덤으로 샘플 추출

      층화 샘플링 : 모집단을 몇 개의 그룹으로 나눠서 각 그룹에서 랜덤으로 n개씩 추출

      계통 샘플링 : 모집단 데이터 1~n 개의 번호를 임의로 매긴 다음 일정 간격 마다 데이터 추출

      군집 샘플링 : cluster를 나눔, 군집 중 하나 or 여러 개의 군집을 선정 , 선정된 군집의 전체 데이터 사용

      ​ c.f. 층화 샘플링과는 다름

      층화 샘플링은 그룹에서 랜덤으로 n개를 추출 vs 군집은 특정 군집을 선정하고 해당되는 군집의 전수 데이터를 사용

✍️Implication
A/B test 등에서 샘플링하여 데이터 분석
현업에서는 주로 <계통샘플링>을 자주 활용
  • 비확률 표본 추출 : 안 배움
(4) 정규 분포와 중심극한정리
  • 정규 분포

    • 정규 분포

      중고등학교때 배운 정규 분포와 동일.

      별도의 설명 x.

      결국 연속확률분포에서 가장 잘 쓰이는 분포 유형은 정규분포다.

      정규 분포는 평균, 표준편차 에 의해 결정된다.

  • 중심극한정리

    모집단의 분포 모양과 관계없이

    표본의 크기가 커질 수록 표본 평균의 분포는 정규 분포에 가까워진다.

    • 표본 평균의 평균 = 모집단의 평균

    • 표본 평균의 표준편차 = 모표준편차 / n ^1/2

표본평균은 모평균과 같지 않다

흔히 오해하는 말

표본 평균의 평균이 모평균과 같은 것

E(x bar) = 뮤

그럼 이때, 중심극한정리는 '동일한 확률 분포를 지닌 확률변수 n개의 평균의 분포'는 n이 충분히 클때 정규 분포에 가까워진다.

즉, 표본이 클수록 표본의 분포가 아니라 '표본 평균들이 이루는 분포'가 정규 분포의 형태를 띤다는 것

중심극한 정리가 중요한 이유는 추론 통계학을 떠받치고 있는 기둥 중 하나이기 대문이다.

+. 무엇보다도 중심 극한정리를 통해 표본평균들의 분포와 모집단 간의 관계를 증명할 수 있다.

+. 그리고 충분히 많은 표본을 추출했다면, 그 표본들의 평균인 '표본평균'의 분포는 정규분포에 근사하고, 이를 통해 Z값을 활용할 수 있다.

창백한 푸른점:통계관련 네이버 블로그

(5) 카이제곱분포 X²
  • 검정 통계량이 카이제곱 분포를 따르는 통계검정에 사용

데이터가 카이제곱분포의 특징을 갖을 때, 카이제곱 검정을 통해 가설을 검정할 수 있음

  • 모분산을 구하는 것

  • 분산의 특징을 확률 분포로 만든 것(>= 0)

  • 분포는 자유도에 의해 정의

  • 자유도가 높을 수록 정규분포에 근접

    • y-skewed(y축에 편향된)분포
    • 제곱된 값의 분산을 다루기 때문에 (-) 값이 존재하지 않
스튜던트 T 분포

image-20221201173454075

  • t 분포 : 모분산 모름. 소규모 표본(30이하)인 경우 사용할 수 있는 새로운 분포
  • 정규분포와 생김새가 비슷하지만 꼬리 부분이 더 두껍고 길다.
  • 표본의 크기가 30이하인 경우 T분포 사용
  • 모분산을 모를때 모평균을 구하는 방법
  • t 분포는 표본평균, 두 표본 평균사이의 차이, 회귀 파라미터 등의 분포를 위한 기준으로 사용
✍️표본 (1,3,4,5,6) = sample no.1 x₁, 
(2,3,4,5,6)x₂
x₃ 
x₄ 
x₅ 
x₆ 
x₇
x₈
  표본 평균
  내가 헷갈리는 것 
  표본은 하나의 column, 하나의 row 인건가 아님 

  같은 집단에서 같은 크기의 무작위 표본을 여러 개 추출하여 동일한 일원 분산 분석을 실시하면 그 결과로 도출된 여러 F-값의 분포를 그릴 수 있습니다. 이러한 분포 유형을 표본 추출 분포라고 합니다.
  결론 -> 표본은 하나 ROW의 튜플 데이터 값이라고 가정함 
F 분포
  • 스튜던트 t분포는 집단 3개 이상은 검정이 불가 → f 분포로 검정
  • 카이제곱분포처럼 분산을 다루지만, 집단간의 분산을 다룬다
  • 분산 분석에 주로 사용
(4) 가설 검정
  • P값이란?

    검정(test)

    • 내가 세운 가설이 통계적으로 유의한지 살펴보는 것
    • "30대의 구매력이 높다"는 가설이 아님
    • "30대는 월 평균 1000만원 이상 구매한다." or
    • "30대의 구매력은 20대보다 높다" 같은 가설을 세워야 한다.
    • 결국 구체적인 기준이 있어서 수치로 검증이 가능해야한다.

    검정순서

    1. 귀무가설H₀과 대립가설H₁을 설정한다.
    2. p-value를 구한다.
    3. p-value를 기준으로 가설의 채택/기각 여부를 결정한다.

    귀무가설 vs 대립가설

    대립가설

    • 연구자가 원하는 주장 혹은 가설

    귀무가설

    • 검정 대상이 되는 가설 , 대립 가설에 반대되는 가설

    대립 + 귀무 은 배타적이어야 함

  • 특정 분포의 특정 지점을 p-value라고 부르는 것 같음. 대체 뭐에 대한 분포인지 모르겠음 observed data point
  • 단측검정? 양측 검정?

    • 단측검정 : 한 방향성으로 가능성이 크다고 생각할 때,

      ​ e.g. 30대가 20대보다 더 많은 구매를 할 것이다.

    • 양측 검정 : 뱡향성은 모르겠지만, 다르다고 생각할 때

      ​ e.g. 30대와 다른 연령대의 구매력의 차이가 있을 것이다.

  • 제 1종 오류 · 제 2종 오류

    제 1종 오류

    • 귀무가설이 옳은데도 불구하고 기각
    • 설레발
    • α

    제 2종 오류

    • 귀무가설이 옳지 않은데도 이를 채택
    • 믿는 도끼에 발등에 찍힌 격
    • β = 1- α
  • T-test

    t분포를 이용한 검정!

    모집단의 분산을 모를때,

    모집단을 대표하는 표본 분산을 가지고 검정하는 방법임

  • 분산 분석 - ANOVA

    F-통계량과 F-검정이란 무엇일까요?

    F-통계량: 두 분산의 비율입니다.

    F = 표본 평균 간 변동/표본 내 변동

    표준 편차는 제곱 단위가 아닌 데이터와 동일한 단위로 표시

    F-통계량은 평균 제곱율에 기반합니다. '평균 제곱'이라는 용어는 어렵게 느껴질 수 있지만, 실은 모분산의 추정치로서 이러한 추정치를 계산하는 데 사용된 자유도(DF)를 나타낼 뿐입니다.

3 개 이상의 다수 집단을 비교할 때 사용 하는 검정 방법

ANOVA 검정 맵 검색하면 PYTHON에서 분석 가능

  • f 분포 가정

  • 등분산성 가정 : 집단 내 분산이 서로 비슷한가? 비슷해야 비교가 가능하다

  • 검정 순서

    • Omnibus F 검정 : F 값이 큰가? 차이가 있는가?

      • one : 일원 분산분석

      독립 변수가 1개인 경우, 해당 변수의 처리 효과를 확인하는 것

      일원분산분석 모형에서도 전체 변동(반응변수의 평균 & 개별관측치의 차이의 제곱합)을 처리효과 + 처리효과 외적인 변동으로 분리

      처리효과 변동 >> 처리효과 외적 변동

      • two : 이원 분산분석

      이원 배치 분산분석은 2 개의 독립변수에 따라 종속변수의 평균 차이를 검증하고, 2개의 독립변수 간 상호작용 효과를 검증하는 방법.

      가설 : 독립변수(범주형)에 따라 종속변수(연속형)는 유의한 차이가 있다.

      예)

      귀무가설 : 성적과 전공만족도에 따라 대학생활 적응 정도는 유의한 차이가 없다.

      대립가설 : 성적과 전공만족도에 따라 대학 생활 적응 정도는 유의한 차이가 있다.

      • 가설 1: 성적에 따라 ~
      • 가설 2 : 전공 만족도에 따라 ~
      • 가설 3 : 성적과 전공만족도에 따라 ~

    꿈쟁이 블로그: 일원배치 분산분석 참고자료

    NurseDongs: 이원배치 분산분석 참고자료

- post hoc 검정 : 구체적으로 얼마나 차이가 나는가? 
  • 카이제곱검정(X²)

    카이제곱 통계량은 데이터 분포와 가정된 분포 사이의 차이를 나타내는 측정

    X ~ X² ()

    무슨 이야기지? 이런 검정을 수행하는 건

    • 독립성 검정 : 두 변수는 서로 연관성이 있는가?
    • 적합성 검정 : 실제 표본이 내가 가정한 분포와 같은가?
    • 동일성 검정 : 두 집단의 분포가 같은가?

    카이제곱검정 순서

    1. 기대값을 구한다.
    2. 카이제곱을 구한다. (관측값 - 기대값)²/ 기대값
    3. (관측값 - 기대값)²/ 기대값 의 합
    4. 카이 제곱의 자유도를 구한다.

A/B TEST 주로 카이제곱 검정으로 수행

자유도

미니탭 블로그 : 통계에서 자유도란?

변화의 자유

먼저 통계학은 잠시 잊고 여러분이 모자 쓰기를 좋아하며 재미를 추구하는 사람이라고 상상해보세요. 여러분은 자유도에 대해서는 알지도 못하고 알 생각도 없으며 다양성이 삶의 즐거움이라고 생각합니다.

하지만 불행히도 여러분에게 제약 사항이 있는데 바로 모자가 7개밖에 없다는 사실입니다. 여러분은 요일마다 다른 모자를 쓰고 싶습니다.
7 hats

1일차에는 모자 7개 중 원하는 것을 쓸 수 있습니다. 2일차에는 남은 모자 6개 중에서 고를 수 있으며 3일차에는 모자 5개 중에서 고를 수 있습니다.

이런 식으로 6일차가 되면 여러분은 그 주에 아직 쓰지 않은 모자 2개 중 하나를 고를 수 있습니다. 하지만 6일차에 모자를 고르고 나면 7일차에는 더 이상 선택의 여지가 없이 마지막으로 남은 모자를 써야 합니다. 즉, 착용하는 모자가 달라지는 7-1 = 6일간의 '모자' 자유가 있었던 것이죠.

이것이 바로 통계학의 자유도 개념입니다. 대부분의 경우 자유도는 통계적 매개변수를 추정할 때 달라질 수 있는 데이터의 '관찰'(정보)의 수로 광범위하게 정의됩니다.

자유도: 1-표본 T-검정

그럼 여러분이 모자가 아니라 데이터 분석을 좋아한다고 가정해보겠습니다.

여러분에게 값이 10개인 데이터 세트가 있습니다. 추정하지 않는 경우 각각의 값은 임의의 숫자를 가질 수 있습니다. 즉, 각각의 값은 얼마든지 달라질 수 있습니다.

하지만 1-표본 t-검정을 통해 값이 10개인 표본으로 모집단 평균을 검정하려는 경우, 평균 추정이라는 제약이 생깁니다. 그렇다면 제약은 정확히 무엇일까요? 평균의 정의에 따르면 다음 관계가 성립해야 합니다. 데이터의 모든 값의 합계는 n x 평균과 같아야 합니다. 이 때 n은 데이터 세트의 값 수에 해당합니다.

즉, 데이터 세트에 값이 10개 있다면 10개 값의 합계가 평균 x 10과 동등해야 합니다. 10개 값의 평균이 3.5(어느 수든 상관없음)인 경우, 이 제약에 따라 10개 값의 합계가 10 x 3.5, 즉 35여야 합니다.

이러한 제약 조건을 전제로 데이터 세트의 첫째 값은 달라질 수 있습니다. 어느 값이든 10개 수의 합계는 여전히 35가 될 수 있으니까요. 두 번째 값 또한 달라질 수 있습니다. 어느 값을 선택하든 모든 값의 합계는 여전히 35가 될 수 있기 때문입니다.

실제로 다음 두 가지 예시처럼 9번째 값까지는 무엇이든 될 수 있습니다.

34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9

하지만 10개 값의 합이 35이고 평균이 3.5가 되려면 10번째 값은 달라질 수 없으며, 특정한 값이어야 합니다.

34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> 10번째 값은 61.3
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> 10번째 값은 30.5

즉, 자유도는 10 - 1 = 9입니다. 사용하는 표본 크기 또는 평균값과는 상관없이 표본의 마지막 값은 자유로울 수 없으며, n - 1의 자유도가 도출됩니다. 이때 n은 표본 크기입니다.

이는 자유도 수가 '관찰' 수에서 관측치 사이에 필요한 관계의 수(즉, 모수 추정치의 수)를 뺀 것과 같다고도 표현할 수 있습니다. 1-표본 t-검정에서는 1의 자유도가 평균 추정에 사용되며, 나머지 n - 1의 자유도는 변동성을 추정합니다.

댓글