kyejin0412 님의 블로그

Week 17-1 ~ 17-5 최종프로젝트 주제 선정 및 분석 시작 본문

내일배움캠프-데이터분석

Week 17-1 ~ 17-5 최종프로젝트 주제 선정 및 분석 시작

kyejin0412 2026. 2. 13. 17:24

 

이번주 내용도 일주일 통으로 적게 되었다. TIL이 아니라 WIL이다!ㅋㅋㅋ

드디어 내부캠의 마지막 단계인 최종프로젝트가 시작되었다. 노션에 144일 남았다고 되어있을 때가 엊그제 같은데, 벌써 28일이 남았다. 설 연휴가 지나면 정말 후딱 갈 것 같다. 마무리 잘 해보자!

 

 

주제 선정

주제들이 바뀌곤 했는데 간단 요약을 해보겠다.

 

1. 각자 조사해 온 후보 : 스포티파이, 티빙vs쿠팡플레이, OTT, 유튜브

티빙vs쿠팡플레이 해보자! -> 데이터가 마땅하지 않음

 

2. 유튜브 해보자! -> 영상을 고르는 기준, 뽑을 댓글의 수, 가능 여부가 애매함

 

3. 스포티파이 노래 분석 : 데이터가 있으며 다양함.

-> 연준T: 너무 도전적인 주제임, 취업 포폴 측면에서 당장 실무에 적용할 수 있는 오히려 조금 뻔한 주제를 선호할 수 있다. 

 

4. 시크먼트 데이터

-> 브랜드분석, 경쟁사 분석 -> 안정적이지만 뻔하다.

 

최종 주제: 시크먼트 데이터

까르띠에 분석가로서, 브랜드 여론 리스크 조기 탐지 (PM, 기획가, 임원 대상)

 

 

KoNLPy

한국어 형태소 분석해주는 라이브러리

비정형 데이터를 다뤄야 하므로 필요함

 

자바 기반이라 자바를 설치해줘야 한다.

그 후 아나콘다 프롬프트에서 KoNLPy를 설치해주면 된다.

 

 

감성분석

 

주제가 여론 리스크 조기탐지이기 때문에, 여론 조사를 위해 감성분석이 필요하다.

감성분석을 통해 게시글을 긍정, 부정(+중립불안), 중립으로 나누고, 부정적 댓글 비율로 확산 정도를 파악한다.

 

 

데이터 전처리

1. 삭제된 댓글 제거 -> 따로 모아서 삭제가 자주 된 유저가 있는가? 악성 바이럴 유저는 아닐까? 확인해보기

2. 까르띠에 관련 게시글만 남기기

3. 본문 html 파싱

 

 

분석 순서

1. 부정 키워드를 먼저 지정하고 감성분석 진행
2. 4개의 그룹으로 나누기
3. “리스크 확산 중” 인 그룹과 “잠재 리스크” 그룹에만 TF-IDF 시행
4. 리스크의 핵심 키워드 찾자

+ “리스크 확산 중”그룹과 “잠재 리스크” 그룹에 리스크 수치를 결합 → 그룹별 맞춤 대응 전략 제시

+ “잠재 리스크” 그룹 → 조기 리스트 탐지