kyejin0412 님의 블로그
Week 11-1 심화프로젝트 - 발표자료 준비 본문
머신러닝을 할 때, 많이 사용하는 방법이 목표치를 강제로 설정해두고 돌리는 것이다.
예를 들어, 재현율 0.8을 목표로 한다면, default recall을 0.8로 임계값 설정을 해두고 머신러닝을 해보는 것이다.
다만, 이랬을 때 다른 값들은 무너질 확률이 높다는 것을 염두에 두자.
0.9정도가 나온다면 현업에서도 아주 잘 나온 것이다.
현실은 더 각박해서 완벽한 모델이 나오기는 드문 일이니 모델이 잘 안 나오는 것 같다고 낙담하지 말자.
오늘은 나온 머신러닝 결과를 가지고 어떻게 스토리텔링을 할지 정하고, 발표자료에 들어갈 EDA 자료를 각자 분담하여 정리하였다.
나는 주요 변수별 부실률 그래프들을 만들었고, 데이터 저장 방식에 변화가 있었던 2013.09.23 과 2016.02 를 전후로 결측치가 어떻게 변했는지 출력하였다.
다른 팀원들이 너무 능력있으셔서 주눅이 들기도 했던 프로젝트였다. 내가 데이터 분석이랑 맞을까...?하는 고민...ㅋㅋㅋ ㅜㅜ
머신러닝할 때 파생변수 만들고, 여러 파라미터들을 적용해보고, 논문을 찾아보는 것들 모두 팀원들에게 배웠다. 머신러닝 평가지표 그래프로는 PR 커브와 ROC 커브가 있다... 사실 다 알게 된 건 아니고 이런 게 있다 정도만 아는 상태이다. 다들 어떻게 이렇게 잘하시는지... "노력하는 자는 즐기는 자를 이기지 못한다" 의 즐기는 자들이 우리 팀원들 같다!
끝나고 일주일 뒤에 다시 프로젝트를 시작하니, 그동안 푹 쉬어야겠다. BDA에서 채용공모전을 해서 참가한다고 했었는데, 이번 프로젝트랑 겹치고 다음 프로젝트랑도 겹칠 거 같아 중도하차했다. 아무래도 두 개 동시에는 못할듯 해서..!!
우리팀 고생많았다!
'내일배움캠프-데이터분석' 카테고리의 다른 글
| Week 12-7 크롤링 (2) | 2026.01.11 |
|---|---|
| Week 11-5 태블로 시작 (0) | 2026.01.02 |
| Week 10-7 심화프로젝트 - 머신러닝 모델링 (0) | 2025.12.28 |
| Week 10-3 심화 프로젝트 - 데이터 전처리 기준 정리 (1) | 2025.12.24 |
| Week 9-5 심화 프로젝트 - 도메인 조사, 컬럼 솎아내기 (1) | 2025.12.19 |