[TIL] Week 7-5 통계 - 분포 종류, 검정과 오류

Notice

Recent Posts

Tags more

Archives

관리 메뉴

kyejin0412 님의 블로그

내일배움캠프-데이터분석

kyejin0412 2025. 12. 5. 21:04

오늘은 통계의 날이었다. 내배캠 통계 강의 2,3주차를 들었다. 캠프 직전에 2주차까지 들었어서 여기까진 수월하게 들었다.

무엇보다 강사님이 쉽게 잘 설명해주신다. 기초 강의라 쉬운걸수도~

코드카타에는 한문제도 못 풀고 고민만 하다 끝났다. 내 코드가 왜 틀렸는지 아직 모르겠음.. 지피티한테 물어봐도 모르겠다 ㅜㅜ 더 고민해봐야지 ㅜㅜ

표본오차 : 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이
- 표본 크기가 클수록, 표본을 무작위로 추출할수록 표본오차는 작아짐.
신뢰구간 : 모집단의 특정 파라미터(예: 평균, 비율)에 대해 추정된 값이 포함될 것으로 기대되는 범위
신뢰구간 계산 방법
- 신뢰구간 = 표본평균 ± z × 표준오차
- 여기서 z는 선택된 신뢰수준에 해당하는 z-값이다. 예를 들어, 95% 신뢰수준의 z-값은 1.96이다.
- 일반적으로 95% 신뢰수준을 많이 사용함

정규분포
- 종 모양의 대칭 분포로, 대부분의 데이터가 평균 주위에 몰려 있는 분포
- 평균을 중심으로 좌우 대칭이며, 평균에서 멀어질수록 데이터의 빈도가 감소함
- 표준편차는 분포의 퍼짐 정도를 나타낸다.
- 표준정규분포 : 평균이 0, 분산이 1인 정규분포. 아래 그림에서 빨간색 그래프
- 평균 기호를 '뮤', 표준편차 기호를 '시그마' 라고 읽는다.

긴 꼬리 분포 (Long Tail Distribution)
- 대부분의 데이터가 분포의 한쪽 끝에 몰려 있고, 반대쪽으로 긴 꼬리가 이어지는 형태의 분포
- 정규분포와 달리 대칭적이지 않고 비대칭적이다.
- 특정한 하나의 분포를 의미하지 않으며 여러 종류의 분포(예: 파레토 분포, 지프의 법칙, 멱함수)를 포함할 수 있다.
- 아무리 데이터가 많아져도 정규분포가 되지 않는다. (예: 파레토 분포)
- 예시: 일부가 전체적으로 큰 영향을 미치는 경우
  - 소득 분포
    - 일부 부유층이 전체 소득에서 큰 비중을 차지하는 소득 분포.
  - 온라인 쇼핑
    - 아마존과 같은 대형 온라인 쇼핑몰에서는 소수의 인기 제품이 많은 판매를 기록하고, 많은 수의 비인기 제품이 적은 판매를 기록하는 긴 꼬리 분포를 보인다. 이 현상을 "롱테일 현상"이라고 한다.
    - 잘 팔리는 상위 20%가 전체 매출의 80%를 차지
  - 도서 판매
    - 소수의 베스트셀러 도서가 전체 판매량의 대부분을 차지하고, 많은 수의 비인기 도서가 적은 판매를 기록하는 긴 꼬리 분포를 보인다.

스튜던트 t 분포
- 모집단의 표준편차를 알 수 없고, 데이터가 적을 때(보통 30개 미만) 정규분포 대신 사용한다.
- 데이터 개수가 많아질수록 자유도가 커진다.
- 보통, 꼬리가 정규분포보다 두껍다. 자유도(표본의 크기)가 커질수록 꼬리가 얇아진다.
- 자유도가 커질수록 (표본의 크기가 커질수록) 정규분포에 가까워짐 (여기서 자유도란 표본의 크기와 관련이 있는 값이라고 이해!)
- 사용 예시 : 소규모 약물 임상시험 (데이터가 적음)

카이제곱분포
- 범주형 데이터의 독립성 검정, 적합도 검정에 사용된다.
  - 독립성 검정 : 두 범주형 변수 간의 관계가 있는가?
  - 적합도 검정 : 관측한 값들이 특정 분포에 해당하는지?
- 자유도(k)에 따라 모양이 달라짐. (여기서 자유도란 표본의 크기와 관련이 있는 값이다 정도로 이해!)
- 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 ‘완벽하게 서로 다른 질적 자료’일 때 활용
  - ex) 성별이나 나이에 따른 선거 후보 지지율
- 데이터 수가 많아질수록 정규분포에 가까워진다.

이항분포
- 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포 (동전의 앞뒤, 성공/실패 등)
- 독립적인 시행이 n번 반복되고, 각 시행에서 성공과 실패 중 하나의 결과만 가능한 경우를 모델링하는 분포라고도 할 수 있다.
- 연속된 값을 가지지 않는 이산형 분포여서 그래프가 점으로 찍힌다. 이어지지 않는다.
- 데이터 수가 많아질수록 정규분포에 가까워진다.
- 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 나타낸다.
- 실험 횟수(n)와 성공 확률(p)로 정의됨.

푸아송분포
- 단위 시간 또는 단위 면적 당 희귀하게 발생하는 사건의 수를 모델링할 때 사용하는 분포
- 평균 발생률 λ 가 높아질수록 정규분포에 가까워진다.
- 이항 분포처럼 연속된 값을 가지지 않기 때문에 이 분포도 역시 이산형 분포에 해당된다.
- 평균 발생률 λ를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생했는가?
- 예시 :
  - 평균 발생률이란 주어진 시간이나 공간에서 사건이 몇번 발생했는지?
    - ex) 한 시간동안 콜센터에 전화오는 건수가 10건이면 λ는 10
  - 특정 기간에 고속도로에서 발생한 사고의 수?

Week 8-4 머신러닝과 통계의 관계, 지도학습 - 회귀 (1)	2025.12.11
[TIL] Week 8-1 Feature Scaling - 표준화, 정규화, 로그 변환 (0)	2025.12.08
[TIL] Week 7-4 파이썬 Pandas 기본 과제 오답노트 / window function - shift, rolling, expanding / 상관관계 (0)	2025.12.04
[TIL] Week 7-3 파이썬 Pandas 기본 - 자주 쓰는 메소드, 함수 (0)	2025.12.03
[TIL] Week 7-2 파이썬 Pandas 심화 - melt, stack, unstack, transpose / 통계 시작 (0)	2025.12.02

'내일배움캠프-데이터분석' Related Articles