기초 통계
(1) 대푯값
(2) 분산도
변동 계수
상대적으로 얼마나 변동이 많은 지를 보기 위한 지표
[a회사] 평균 매출액 100억 / 표준편차 12 -> cv = 12/ 100 = 0.12
[b회사] 평균 매출액 40억 / 표준편차 2 -> cv = 2/40 = 0.05
Implication : a회사가 b회사보다 크게 변동했음 → 더 큰 폭으로 매출 발생, 월간 변동이 많음 → 더 불안정
변동계수(cv) = 표준편차 / 평균
왜도 & 첨도
왜도 (Skewness)
얼마나 치우쳤냐
분포의 비대칭도를 나타냄
비대칭이 커질수록 왜도의
절대값
은 증가왜도 -1 ~ + 1 범위는 치우침이 없는 데이터
치우침이 있는 값은 대표값을 선정할 때 고민해줘야 함
첨도(Kurtosis)
얼마나 뾰족한가
꼬리 부분의 길이 + 중앙 부분의 뾰족함으로 데이터 분포를 알 수 있음
- Mesokurtic : 정규 분포 모양
- Leptokurtic : 더 높고 뾰족 →
이상치(outilier)가 많을 수 있음
- Platykurtic : 낮고 완만 , Leptokurtic의 반대 , 이상치(outlier) 가 없음,이상치가 없는 데이터는 이상함. →
데이터 다시 확인
목표 : 결국 우리가 데이터 전처리할 때, 확인할 지표를 배운다!
(3) 기술 통계
모집단 · 표본 · 샘플링 방법(1)
모집단
통계를 통해 알고 싶어하는 모든 집단
모수(parameter): 모집단의 특성
표본(sample)
모집단에서 추출된 일부 집단
통계량(statistic) : 표본의 특성
추출(Sampling) : 모집단에서 표본을 추출하는 방법
추론 (Inference) : 표본 통계량으로 모집단의 특성(모수)를 추론
샘플링 방법
확률 표본 추출
단순 샘플링 (Simple Random Sampling) : 단순 랜덤으로 샘플 추출
층화 샘플링 : 모집단을 몇 개의 그룹으로 나눠서 각 그룹에서 랜덤으로 n개씩 추출
계통 샘플링 : 모집단 데이터 1~n 개의 번호를 임의로 매긴 다음 일정 간격 마다 데이터 추출
군집 샘플링 : cluster를 나눔, 군집 중 하나 or 여러 개의 군집을 선정 , 선정된 군집의 전체 데이터 사용
c.f. 층화 샘플링과는 다름
층화 샘플링은 그룹에서 랜덤으로 n개를 추출 vs 군집은 특정 군집을 선정하고 해당되는 군집의 전수 데이터를 사용
✍️Implication
A/B test 등에서 샘플링하여 데이터 분석
현업에서는 주로 <계통샘플링>을 자주 활용
- 비확률 표본 추출 : 안 배움
(4) 정규 분포와 중심극한정리
정규 분포
정규 분포
중고등학교때 배운 정규 분포와 동일.
별도의 설명 x.
결국 연속확률분포에서 가장 잘 쓰이는 분포 유형은 정규분포다.
정규 분포는 평균, 표준편차 에 의해 결정된다.
중심극한정리
모집단의 분포 모양과 관계없이
표본의 크기가 커질 수록 표본 평균의 분포는 정규 분포에 가까워진다.
표본 평균의 평균 = 모집단의 평균
표본 평균의 표준편차 = 모표준편차 / n ^1/2
표본평균은 모평균과 같지 않다
흔히 오해하는 말
표본 평균의 평균이 모평균과 같은 것
E(x bar) = 뮤
그럼 이때, 중심극한정리는 '동일한 확률 분포를 지닌 확률변수 n개의 평균의 분포'는 n이 충분히 클때 정규 분포에 가까워진다.
즉, 표본이 클수록 표본의 분포가 아니라 '표본 평균들이 이루는 분포'가 정규 분포의 형태를 띤다는 것
중심극한 정리가 중요한 이유는 추론 통계학을 떠받치고 있는 기둥 중 하나이기 대문이다.
+. 무엇보다도 중심 극한정리를 통해 표본평균들의 분포와 모집단 간의 관계를 증명할 수 있다.
+. 그리고 충분히 많은 표본을 추출했다면, 그 표본들의 평균인 '표본평균'의 분포는 정규분포에 근사하고, 이를 통해 Z값을 활용할 수 있다.
(5) 카이제곱분포 X²
- 검정 통계량이 카이제곱 분포를 따르는 통계검정에 사용
데이터가 카이제곱분포의 특징을 갖을 때, 카이제곱 검정을 통해 가설을 검정할 수 있음
모분산을 구하는 것
분산의 특징을 확률 분포로 만든 것(>= 0)
분포는 자유도에 의해 정의
자유도가 높을 수록 정규분포에 근접
- y-skewed(y축에 편향된)분포
- 제곱된 값의 분산을 다루기 때문에 (-) 값이 존재하지 않
스튜던트 T 분포
- t 분포 : 모분산 모름. 소규모 표본(30이하)인 경우 사용할 수 있는 새로운 분포
- 정규분포와 생김새가 비슷하지만 꼬리 부분이 더 두껍고 길다.
- 표본의 크기가 30이하인 경우 T분포 사용
- 모분산을 모를때 모평균을 구하는 방법
- t 분포는 표본평균, 두 표본 평균사이의 차이, 회귀 파라미터 등의 분포를 위한 기준으로 사용
✍️표본 (1,3,4,5,6) = sample no.1 x₁,
(2,3,4,5,6)x₂
x₃
x₄
x₅
x₆
x₇
x₈
표본 평균
내가 헷갈리는 것
표본은 하나의 column, 하나의 row 인건가 아님
같은 집단에서 같은 크기의 무작위 표본을 여러 개 추출하여 동일한 일원 분산 분석을 실시하면 그 결과로 도출된 여러 F-값의 분포를 그릴 수 있습니다. 이러한 분포 유형을 표본 추출 분포라고 합니다.
결론 -> 표본은 하나 ROW의 튜플 데이터 값이라고 가정함
F 분포
- 스튜던트 t분포는 집단 3개 이상은 검정이 불가 → f 분포로 검정
- 카이제곱분포처럼 분산을 다루지만, 집단간의 분산을 다룬다
- 분산 분석에 주로 사용
(4) 가설 검정
P값이란?
검정(test)
- 내가 세운 가설이 통계적으로 유의한지 살펴보는 것
- "30대의 구매력이 높다"는 가설이 아님
- "30대는 월 평균 1000만원 이상 구매한다." or
- "30대의 구매력은 20대보다 높다" 같은 가설을 세워야 한다.
- 결국 구체적인 기준이 있어서 수치로 검증이 가능해야한다.
검정순서
- 귀무가설H₀과 대립가설H₁을 설정한다.
- p-value를 구한다.
- p-value를 기준으로 가설의 채택/기각 여부를 결정한다.
귀무가설 vs 대립가설
대립가설
- 연구자가 원하는 주장 혹은 가설
귀무가설
- 검정 대상이 되는 가설 , 대립 가설에 반대되는 가설
대립 + 귀무 은 배타적이어야 함
- 특정 분포의 특정 지점을 p-value라고 부르는 것 같음. 대체 뭐에 대한 분포인지 모르겠음 observed data point
단측검정? 양측 검정?
단측검정 : 한 방향성으로 가능성이 크다고 생각할 때,
e.g. 30대가 20대보다 더 많은 구매를 할 것이다.
양측 검정 : 뱡향성은 모르겠지만, 다르다고 생각할 때
e.g. 30대와 다른 연령대의 구매력의 차이가 있을 것이다.
제 1종 오류 · 제 2종 오류
제 1종 오류
- 귀무가설이 옳은데도 불구하고 기각
- 설레발
- α
제 2종 오류
- 귀무가설이 옳지 않은데도 이를 채택
- 믿는 도끼에 발등에 찍힌 격
- β = 1- α
T-test
t분포를 이용한 검정!
모집단의 분산을 모를때,
모집단을 대표하는 표본 분산을 가지고 검정하는 방법임
분산 분석 - ANOVA
F-통계량과 F-검정이란 무엇일까요?
F-통계량: 두 분산의 비율입니다.
F = 표본 평균 간 변동/표본 내 변동
표준 편차는 제곱 단위가 아닌 데이터와 동일한 단위로 표시
F-통계량은 평균 제곱율에 기반합니다. '평균 제곱'이라는 용어는 어렵게 느껴질 수 있지만, 실은 모분산의 추정치로서 이러한 추정치를 계산하는 데 사용된 자유도(DF)를 나타낼 뿐입니다.
3 개 이상의 다수 집단을 비교할 때 사용 하는 검정 방법
ANOVA 검정 맵 검색하면 PYTHON에서 분석 가능
f 분포 가정
등분산성 가정 : 집단 내 분산이 서로 비슷한가? 비슷해야 비교가 가능하다
검정 순서
Omnibus F 검정 : F 값이 큰가? 차이가 있는가?
- one : 일원 분산분석
독립 변수가 1개인 경우, 해당 변수의 처리 효과를 확인하는 것
일원분산분석 모형에서도 전체 변동(반응변수의 평균 & 개별관측치의 차이의 제곱합)을 처리효과 + 처리효과 외적인 변동으로 분리
처리효과 변동 >> 처리효과 외적 변동
- two : 이원 분산분석
이원 배치 분산분석은 2 개의 독립변수에 따라 종속변수의 평균 차이를 검증하고, 2개의 독립변수 간 상호작용 효과를 검증하는 방법.
가설 : 독립변수(범주형)에 따라 종속변수(연속형)는 유의한 차이가 있다.
예)
귀무가설 : 성적과 전공만족도에 따라 대학생활 적응 정도는 유의한 차이가 없다.
대립가설 : 성적과 전공만족도에 따라 대학 생활 적응 정도는 유의한 차이가 있다.
- 가설 1: 성적에 따라 ~
- 가설 2 : 전공 만족도에 따라 ~
- 가설 3 : 성적과 전공만족도에 따라 ~
- post hoc 검정 : 구체적으로 얼마나 차이가 나는가?
카이제곱검정(X²)
카이제곱 통계량은 데이터 분포와 가정된 분포 사이의 차이를 나타내는 측정
X ~ X² ()
무슨 이야기지? 이런 검정을 수행하는 건
- 독립성 검정 : 두 변수는 서로 연관성이 있는가?
- 적합성 검정 : 실제 표본이 내가 가정한 분포와 같은가?
- 동일성 검정 : 두 집단의 분포가 같은가?
카이제곱검정 순서
- 기대값을 구한다.
- 카이제곱을 구한다. (관측값 - 기대값)²/ 기대값
- (관측값 - 기대값)²/ 기대값 의 합
- 카이 제곱의 자유도를 구한다.
A/B TEST 주로 카이제곱 검정으로 수행
자유도
변화의 자유
먼저 통계학은 잠시 잊고 여러분이 모자 쓰기를 좋아하며 재미를 추구하는 사람이라고 상상해보세요. 여러분은 자유도에 대해서는 알지도 못하고 알 생각도 없으며 다양성이 삶의 즐거움이라고 생각합니다.
하지만 불행히도 여러분에게 제약 사항이 있는데 바로 모자가 7개밖에 없다는 사실입니다. 여러분은 요일마다 다른 모자를 쓰고 싶습니다.
1일차에는 모자 7개 중 원하는 것을 쓸 수 있습니다. 2일차에는 남은 모자 6개 중에서 고를 수 있으며 3일차에는 모자 5개 중에서 고를 수 있습니다.
이런 식으로 6일차가 되면 여러분은 그 주에 아직 쓰지 않은 모자 2개 중 하나를 고를 수 있습니다. 하지만 6일차에 모자를 고르고 나면 7일차에는 더 이상 선택의 여지가 없이 마지막으로 남은 모자를 써야 합니다. 즉, 착용하는 모자가 달라지는 7-1 = 6일간의 '모자' 자유가 있었던 것이죠.
이것이 바로 통계학의 자유도 개념입니다. 대부분의 경우 자유도는 통계적 매개변수를 추정할 때 달라질 수 있는 데이터의 '관찰'(정보)의 수로 광범위하게 정의됩니다.
자유도: 1-표본 T-검정
그럼 여러분이 모자가 아니라 데이터 분석을 좋아한다고 가정해보겠습니다.
여러분에게 값이 10개인 데이터 세트가 있습니다. 추정하지 않는 경우 각각의 값은 임의의 숫자를 가질 수 있습니다. 즉, 각각의 값은 얼마든지 달라질 수 있습니다.
하지만 1-표본 t-검정을 통해 값이 10개인 표본으로 모집단 평균을 검정하려는 경우, 평균 추정이라는 제약이 생깁니다. 그렇다면 제약은 정확히 무엇일까요? 평균의 정의에 따르면 다음 관계가 성립해야 합니다. 데이터의 모든 값의 합계는 n x 평균과 같아야 합니다. 이 때 n은 데이터 세트의 값 수에 해당합니다.
즉, 데이터 세트에 값이 10개 있다면 10개 값의 합계가 평균 x 10과 동등해야 합니다. 10개 값의 평균이 3.5(어느 수든 상관없음)인 경우, 이 제약에 따라 10개 값의 합계가 10 x 3.5, 즉 35여야 합니다.
이러한 제약 조건을 전제로 데이터 세트의 첫째 값은 달라질 수 있습니다. 어느 값이든 10개 수의 합계는 여전히 35가 될 수 있으니까요. 두 번째 값 또한 달라질 수 있습니다. 어느 값을 선택하든 모든 값의 합계는 여전히 35가 될 수 있기 때문입니다.
실제로 다음 두 가지 예시처럼 9번째 값까지는 무엇이든 될 수 있습니다.
34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9
하지만 10개 값의 합이 35이고 평균이 3.5가 되려면 10번째 값은 달라질 수 없으며, 특정한 값이어야 합니다.
34, -8.3, -37, -92, -1, 0, 1, -22, 99 -----> 10번째 값은 61.3
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 ----> 10번째 값은 30.5
즉, 자유도는 10 - 1 = 9입니다. 사용하는 표본 크기 또는 평균값과는 상관없이 표본의 마지막 값은 자유로울 수 없으며, n - 1의 자유도가 도출됩니다. 이때 n은 표본 크기입니다.
이는 자유도 수가 '관찰' 수에서 관측치 사이에 필요한 관계의 수(즉, 모수 추정치의 수)를 뺀 것과 같다고도 표현할 수 있습니다. 1-표본 t-검정에서는 1의 자유도가 평균 추정에 사용되며, 나머지 n - 1의 자유도는 변동성을 추정합니다.
댓글