kyejin0412 님의 블로그

Week 8-4 머신러닝과 통계의 관계, 지도학습 - 회귀 본문

내일배움캠프-데이터분석

Week 8-4 머신러닝과 통계의 관계, 지도학습 - 회귀

kyejin0412 2025. 12. 11. 21:01

 

어제는 아누아 데이터 분석 인턴 면접을 다녀와서 공가를 냈다.

일요일에 서류를 제출했는데 면접일정이 엄청 빠르게 잡혔다.

면접관이 무뚝뚝하고 깐깐해보여서 잘 본 느낌이 아니었다. 대답을 잘 모르겠어서 같은 대답으로 계속 말해서 만족스럽지 못하셨을듯... 업무도 데이터 수집, 크롤링, 정제가 주일 것 같았다. 결론적으론 안 갈 것 같고, 경험으로 남길 것 같다!

넥슨도 제출해서 서류 결과를 기다리는 중이고, 넷마블도 내보려고 한다.

 

오늘은 어제 라이브세션이었던 머신러닝 1회차 강의를 들었다.

차근차근 들으니 생각보다 할 만 했다.


 

1. 모델이란?

알고리즘을 적용시켜 결과를 저장해두는 것. 매번 돌리기 귀찮고 번거로우니 '모델' 이라는 것으로 '저장'하는 것이다.

 

2. 머신러닝이란?

  • 정의: 데이터를 기반으로 예측 모델을 학습시키는 알고리즘 기반의 접근법
  • 목적: 주어진 데이터를 통해 패턴을 학습하여 미래 데이터를 예측하거나 분류하는 것
  • 종류: 지도학습(회귀, 분류) / 비지도학습 (클러스터링, 차원 축소), 강화학습

 

3. 통계와 머신러닝의 상호 보완적 관계

  • 통계-> 머신러닝
    • 유의미한 컬럼을 뽑아주는 데에 도움을 준다.
    • 데이터 전처리에 유용한 통계적 기법을 제공한다.

 

  • 머신러닝 -> 통계
    • 비선형 데이터의 관계를 처리하거나 대규모 데이터의 가설검정의 한계를 보완한다.
    • 통계적 가설검정은 변수 간 독립성을 가정하고 진행되지만, 머신러닝은 이러한 제약 없이 상관 및 연관성을 탐지한다.

 

4. 머신러닝의 종류

  • 지도학습
    • 문제와 정답을 모두 알고 있는 상태에서 학습시키는 방법
    • 훈련데이터 (train) 와 검증데이터 (test) 로 나눈다. -> 머신러닝에 필수이다!
    • 정답이 있어서 데이터들로 이를 학습시킨다.
    • 새로운 데이터가 들어왔을 때 정답을 예측하거나 분류한다.
    • 지도 학습 모델은 비지도 학습 모델보다 객관적으로 판단할 수 있지만 “데이터분석가의 주관” 개입이 필요하다.
    • 예를 들어 지도 학습 모델은 시간, 기상 조건 등을 기반으로 통근 시간을 예측할 수 있지만 먼저 비가 오는 날씨가 운전 시간을 연장한다는 것을 알기 위해 훈련이 필요하다.
    • 지도 학습 모델은 감정 분석, 일기 예보 및 가격 예측에 이상적이다. 
  • 비지도학습
    • 정답이 없는 상태에서 학습시키는 방법
    • 입력되는 데이터들만을 분석해서 패턴을 찾거나 데이터를 그룹화한다.
    • 직접 데이터 간의 유사성이나 차이점을 분석해서 적절한 해결책을 찾아나가는 과정이다.
    • 결과의 유효성을 검사하려면 여전히 “데이터분석가의 주관” 개입이 보다 적극적으로 필요하다.
    • 예를 들어, 비지도 학습 모델은 온라인 쇼핑객이 구매했던 제품들을 분석해 다른 온라인 쇼핑객에게 구매할 만한 물건을 추천해 줄 수 있겠지만, 데이터 분석을 통해서 추천 엔진이 추천해 준 항목들이 타당한지 검증해야 한다.
    • 비지도 학습은 이상 감지, 추천 엔진, 고객 페르소나 및 의료 영상에 매우 적합하다.
  • 차이점 정리
    • 지도 학습에서 목표는 새로운 데이터의 결과를 예측하는 것.
    • 비지도 학습 알고리즘의 목표는 많은 양의 새로운 데이터에 대한 통찰력을 얻는 것.

 

5. 지도학습 - 회귀 (Regression)

  • 회귀 (Regression) : 회귀는 매출 "예측"을 위해 한다. 원인으로부터 결과를 "예측" 하는 것!!
  • 회귀분석의 목적
    • "추세선" (=회귀선) 을 찾는 것이 목적이다.
    • 추세선은 y=ax+b 회귀 방정식으로 표현할 수 있다. 여기에 내가 원하는 값을 넣어보고 예상을 하는 것이다!
    • x: 독립변수, y: 종속변수, a: 기울기, b: 절편(x가 0일 때 y값)
  • 회귀분석 프로세스
    1. 독립변수, 종속변수 설정과 가설설정
      • 귀무가설 : 관련/차이가 없을 것이다.
      • 대립가설 : 관련/차이가 있을 것이다.
    2. 데이터 경향성 확인
    3. 정합성 검증 & 결과 해석
      • 1️⃣ 회귀모델(회귀식)이 얼마나 설명력을 갖는지 -> 정확도. 95%, 99% ... 현실에서 정확도는 한 번에 높게 나오지 않음. 따라서 모델 만드는 과정이 몇개월 걸리는 것!
        2️⃣ 회귀모델(회귀식)이 통계적으로 유의한지 -> p-value랑 비슷함. 정확도와 상관 없음
        3️⃣ 독립변수와 종속변수 간 선형관계가 있는지(선형회귀인경우)
  • 변수의 종류
    • 독립변수(=설명변수) : 원인이 되는 변수.
    • 종속변수(=반응변수) : 결과가 되는 변수. 독립변수에 따라 달라짐. 독립변수에 종속적임.
  • 변수 개수에 따른 회귀 종류
    • 단순회귀 : 독립변수가 하나. 원인이 하나.
    • 다중회귀 : 독립변수가 두 개 이상. 원인이 두 개 이상.
  • 선형회귀와 로지스틱 회귀 구분
    • 원인 결과 모두 연속형 변수 (숫자(int, float)) 이면 선형회귀.- 산점도, 선형적으로 확인가능해야 한다. 예측
    • 원인 결과 중 범주형 변수가 있으면 로지스틱 회귀 - 히스토그램. 예측, 분류
    • (-> 원인이 연속형 또는 범주형 / 결과가 범주형 또는 이진형)
    • 1️⃣이진 로지스틱 회귀: 종속변수가 두가지 중 하나의 값을 가지는 경우 (이진형 결과) -> 시험 합격 여부
      2️⃣다중 로지스틱 회귀: 종속변수가 순서가 없는 3개 이상일 경우 (범주형 결과) -> 고객만족도

 

  • 정합성 검증 (p-value에 포커싱!)
    1. 회귀식이 얼마나 설명력을 갖는가? = 잘 성형되었는가? 잘 고쳐졌는가?
      • 결정계수 (R_squared. R^2)  확인 : 종속변수와 독립변수의 관계를 나타내는 수치.
    2. 회귀모델(회귀식)이 통계적으로 유의한가?
      • 회귀식에 대한 F검정 시행
      • 귀무가설 : 회귀모델이 타당하지 않을 것이다. 회귀 계수들이 모두 0이다.
      • 대립가설 : 회귀모델이 타당할 것이다. 적어도 하나의 회귀 계수는 0이 아니다.
      • p-value로 유의성 판단!
    3. 독립변수와 종속변수 간 선형관계가 있는지?
      • 회귀식의 기울기에 대한 t검정 시행
      • 귀무가설 : 독립변수와 종속변수 간 선형적인 연관이 없을 것이다.
      • 대립가설 : 독립변수와 종속변수 간 선형적인 연관이 있을 것이다.
      • p-value로 유의성 판단!

 

 

 

  • 비선형성 확인은 비지도학습이 나음
  • 추론통계인 이상 오차는 존재할 수 밖에 없음. 따라서 식에 오차는 항상 있음