kyejin0412 님의 블로그

[TIL] Week 7-5 통계 - 분포 종류, 검정과 오류 본문

내일배움캠프-데이터분석

[TIL] Week 7-5 통계 - 분포 종류, 검정과 오류

kyejin0412 2025. 12. 5. 21:04

 

오늘은 통계의 날이었다. 내배캠 통계 강의 2,3주차를 들었다. 캠프 직전에 2주차까지 들었어서 여기까진 수월하게 들었다.

무엇보다 강사님이 쉽게 잘 설명해주신다. 기초 강의라 쉬운걸수도~

코드카타에는 한문제도 못 풀고 고민만 하다 끝났다. 내 코드가 왜 틀렸는지 아직 모르겠음.. 지피티한테 물어봐도 모르겠다 ㅜㅜ 더 고민해봐야지 ㅜㅜ


 

1. 모집단과 표본

  • 모집단 : 전체 집단
  • 표본 : 모집단에서 추출한 일부
  • 표본 추출 시 무작위로 추출해야 편향을 최소화하고 모집단의 다양한 특성을 반영할 수 있다.
  • 현실적으로 모집단의 모든 데이터를 수집하는 게 어려우므로 표본을 활용한다.
  • 표본을 활용하면 데이터 처리, 데이터 품질 관리, 모델 적합도 테스트가 용이해진다.
  • 추론통계는 표본으로 모집단을 추정하는 것이 기본이 된다.

 

2. 표본오차와 신뢰구간

  • 표본오차 : 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이
    • 표본 크기가 클수록, 표본을 무작위로 추출할수록 표본오차는 작아짐.
  • 신뢰구간 : 모집단의 특정 파라미터(예: 평균, 비율)에 대해 추정된 값이 포함될 것으로 기대되는 범위
  • 신뢰구간 계산 방법
    • 신뢰구간 = 표본평균 ± z × 표준오차
    • 여기서 z는 선택된 신뢰수준에 해당하는 z-값이다. 예를 들어, 95% 신뢰수준의 z-값은 1.96이다.
    • 일반적으로 95% 신뢰수준을 많이 사용함

 

2. 분포의 종류

  • 중심극한정리: 보통, 데이터가 많아질수록 정규분포에 가까워진다. 

 

  • 정규분포
    • 종 모양의 대칭 분포로, 대부분의 데이터가 평균 주위에 몰려 있는 분포
    • 평균을 중심으로 좌우 대칭이며, 평균에서 멀어질수록 데이터의 빈도가 감소함
    • 표준편차는 분포의 퍼짐 정도를 나타낸다.
    • 표준정규분포 : 평균이 0, 분산이 1인 정규분포. 아래 그림에서 빨간색 그래프
    • 평균 기호를 '뮤', 표준편차 기호를 '시그마' 라고 읽는다.

 

  • 긴 꼬리 분포 (Long Tail Distribution)
    • 대부분의 데이터가 분포의 한쪽 끝에 몰려 있고, 반대쪽으로 긴 꼬리가 이어지는 형태의 분포
    • 정규분포와 달리 대칭적이지 않고 비대칭적이다.
    • 특정한 하나의 분포를 의미하지 않으며 여러 종류의 분포(예: 파레토 분포, 지프의 법칙, 멱함수)를 포함할 수 있다.
    • 아무리 데이터가 많아져도 정규분포가 되지 않는다. (예: 파레토 분포)
    • 예시: 일부가 전체적으로 큰 영향을 미치는 경우
      • 소득 분포
        • 일부 부유층이 전체 소득에서 큰 비중을 차지하는 소득 분포.
      • 온라인 쇼핑
        • 아마존과 같은 대형 온라인 쇼핑몰에서는 소수의 인기 제품이 많은 판매를 기록하고, 많은 수의 비인기 제품이 적은 판매를 기록하는 긴 꼬리 분포를 보인다. 이 현상을 "롱테일 현상"이라고 한다.
        • 잘 팔리는 상위 20%가 전체 매출의 80%를 차지
      • 도서 판매
        • 소수의 베스트셀러 도서가 전체 판매량의 대부분을 차지하고, 많은 수의 비인기 도서가 적은 판매를 기록하는 긴 꼬리 분포를 보인다.

 

 

  • 스튜던트 t 분포
    • 모집단의 표준편차를 알 수 없고, 데이터가 적을 때(보통 30개 미만) 정규분포 대신 사용한다.
    • 데이터 개수가 많아질수록 자유도가 커진다.
    • 보통, 꼬리가 정규분포보다 두껍다. 자유도(표본의 크기)가 커질수록 꼬리가 얇아진다.
    • 자유도가 커질수록 (표본의 크기가 커질수록) 정규분포에 가까워짐 (여기서 자유도란 표본의 크기와 관련이 있는 값이라고 이해!)

    • 사용 예시 : 소규모 약물 임상시험 (데이터가 적음)

 

 

  • 카이제곱분포 
    • 범주형 데이터의 독립성 검정, 적합도 검정에 사용된다.
      • 독립성 검정 : 두 범주형 변수 간의 관계가 있는가?
      • 적합도 검정 : 관측한 값들이 특정 분포에 해당하는지?
    • 자유도(k)에 따라 모양이 달라짐. (여기서 자유도란 표본의 크기와 관련이 있는 값이다 정도로 이해!)
    • 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 ‘완벽하게 서로 다른 질적 자료’일 때 활용
      • ex) 성별이나 나이에 따른 선거 후보 지지율
    • 데이터 수가 많아질수록 정규분포에 가까워진다.

 

 

 

  • 이항분포
    • 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포 (동전의 앞뒤, 성공/실패 등)
    • 독립적인 시행이 n번 반복되고, 각 시행에서 성공과 실패 중 하나의 결과만 가능한 경우를 모델링하는 분포라고도 할 수 있다.
    • 연속된 값을 가지지 않는 이산형 분포여서 그래프가 점으로 찍힌다. 이어지지 않는다.
    • 데이터 수가 많아질수록 정규분포에 가까워진다.
    • 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 나타낸다.
    • 실험 횟수(n)와 성공 확률(p)로 정의됨.

 

 

 

  • 푸아송분포
    • 단위 시간 또는 단위 면적 당 희귀하게 발생하는 사건의 수를 모델링할 때 사용하는 분포
    • 평균 발생률 λ 가 높아질수록 정규분포에 가까워진다.
    • 이항 분포처럼 연속된 값을 가지지 않기 때문에 이 분포도 역시 이산형 분포에 해당된다.
    • 평균 발생률 λ를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생했는가?
    • 예시 : 
      • 평균 발생률이란 주어진 시간이나 공간에서 사건이 몇번 발생했는지?
        • ex) 한 시간동안 콜센터에 전화오는 건수가 10건이면 λ는 10
      • 특정 기간에 고속도로에서 발생한 사고의 수?