kyejin0412 님의 블로그
Week 20-3 최종프로젝트 - 브랜드 필터링 본문
브랜드 필터링
라벨링을 끝내고, BERT 모델을 만드는 와중에 걸림돌을 발견했다.
부정, 중립부정, 중립, 긍정, 타브랜드로 라벨링을 하고 모델을 학습시키는데 타브랜드의 평가지표가 모두 0으로 나오는 것이었다.
타브랜드의 데이터 개수가 11개로 너무 적어서 발생하는 문제였다. 모델이 타브랜드인지 잡아내질 못한다.
전체데이터에 적용할 경우, 타브랜드의 얘기인데 까르띠에로 판단하여 인사이트가 오염될 수 있었다.
따라서 브랜드 필터링부터 다시해야하는 상황이 되었다....!
먼저 BERT로 까르띠에를 판단하는 이진 분류 모델을 만든 후, 전체 데이터에 적용하여 까르띠에 게시글만 남긴다. 그 다음,
1) 리스크/비리스크로 나눈 뒤, 리스크 안에서 중립부정, 부정을 나눔
2) 부정, 중립부정, 중립, 긍정 4개로 감성분석 진행
이렇게 두 가지를 수행 후 비교하여, 더 나은 성능의 모델로 채택하기로 했다.
총데이터 600개 중 타브랜드 55개로 이진 분류 모델을 학습시켰는데 성능이 안 좋았다.
epoch수, threshold를 바꿔서 성능을 올리는 데에는 한계가 있었다.
데이터 수가 너무 적었기 때문에, 이 모델로 타브랜드일 확률이 높은 데이터들을 순서대로 sort한 다음,
51~100개의 데이터를 추가로 라벨링 했다(까르띠에:0, 타브랜드:1).
그 결과, 확연하게 좋아지는 모습을 보였다. (이전엔 리콜이 0: 1.00 / 1: 0.00 이었다...)

팀원들과 결과를 비교하여 제일 좋게 나온 모델로 결정을 했고, 전체 데이터에 적용하여 까르띠에만 다시 필터링했다.
이거로 감성분석을 진행하면 된다.
금방 끝났으면 좋겠다..!
배운점
딥러닝에서 데이터가 너무 적을 경우, 조금만 조정하더라도 결과가 휙휙 바뀌고,
모델이 패턴이나 기준을 익히지 못하여 성능이 안 좋을 수 밖에 없다.
'내일배움캠프-데이터분석' 카테고리의 다른 글
| Week 20-5 최종프로젝트 - BERT 리스크/비리스크 분류 모델 (0) | 2026.03.06 |
|---|---|
| Week 20-4 최종프로젝트 - 브랜드 필터링, 감성분석 라벨링 (0) | 2026.03.05 |
| Week 19-3 최종프로젝트 - BERT 분석 방향 수정 (0) | 2026.02.25 |
| Week 18-5 최종프로젝트 - 데이터 전처리, 키워드 사전 구축 (1) | 2026.02.20 |
| Week 18-4 최종프로젝트 - 데이터 전처리 (0) | 2026.02.19 |