Week 19-3 최종프로젝트 - BERT 분석 방향 수정

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

kyejin0412 님의 블로그

Week 19-3 최종프로젝트 - BERT 분석 방향 수정 본문

내일배움캠프-데이터분석

Week 19-3 최종프로젝트 - BERT 분석 방향 수정

kyejin0412 2026. 2. 25. 23:50

우린 감성분석으로 긍정/부정/중립부정(걱정,불안,의심 등)/중립 4가지를 나누기로 했다.

이때 사용하기로 한 것이 BERT이다.

BERT 감성분석 -> 중립부정에서 BERTopic으로 클러스터링 하고 대표키워드를 찾기 -> 클러스터링을 바탕으로 유형나누기

유형별 시계열 분석, 댓글데이터로 확산지표 만들어서 분석

이런 식으로 할 것 같다.

원래는 부정을 유형별로 나눈 뒤, 부정 확률수치와 중립부정 확률수치로 리스크 수치를 구해서 리스크인지 판단하고, 확산 정도를 확인하는 방향이었다.

그런데 생각해보니, 우리 주제가 리스크 조기탐색인데 이미 이슈화된 부정 게시글이 아닌, 중립부정에서 조기탐지를 해야 하는 것 아닌가 하는 생각이 들어 팀과 튜터님께 말씀드렸다. 튜터님도 결국은 그 방향으로 가게 될 것 같다, 맞다고 하셨고 팀원들도 동의했다.

본질을 잊지 말고 사고하는 것이 중요하다는 것을 다시 한 번 깨달았고, 방향을 잃지 않도록 기여한 것 같아서 기분이 좋았다.

머신러닝할 때 비지도학습 / 지도학습 정하는 법

비지도 학습을 먼저 할 경우 : 어떻게 분류해야할 지 모를 때, 데이터의 특성을 파악하고 싶을 때, 기준이 없을 때
지도 학습을 할 경우 : 우리한테 기준이 있고, 원하는 기준대로 나누고 싶을 때

우리의 경우, 긍정/부정/중립부정/중립 기준이 있으므로 지도학습을 해야 한다.

비지도학습으로 대충 라벨링을 하고, 그 후 지도학습을 해서 파인튜닝을 하자는 계획이 틀렸다.

기계한테 비지도학습을 시킬 경우, 마음대로 4가지로 나눠버려서 우리 기준대로 그룹화가 잘 안 된다.

우리는 지도학습을 위해 750개의 데이터를 뽑아 라벨링을 하기로 하였다. 중복 제거 후 721개의 행이 남았다.

팀 모두 각자 기준을 확인하며 분류를 해보고, 의견이 갈리는 데이터를 같이 논의하기로 했다.

지도학습을 위한 데이터는 기준이 명확하며 일관적이어야 한다!!

감성분석 기준

[유형 기준]

부정	명확한 불만·피해·공격적 표현
중립부정	불안, 의심, 걱정(소문 포함), 추측
중립	정보공유, 질문, 구매후기/인증, 투표글
긍정	만족, 추천, 칭찬

1. 감정, 행동 섞인 경우

→ 감정으로 판단

2. 감정이 여러 개인 경우 (감정1 + 행동 + 감정2 …)

→ (부정 + 중립부정/긍정 감정이 섞여있을 때)

a. 부정 감정이 하나라도 있으면 부정

→ (부정 감정 or 중립불안 키워드 있을 때)

b. 브랜드가 고칠 수 있는 문제(브랜드 운영/제품 품질/가격/유통/CS에 대한 언급)면 부정

c. 확실한 부정표현이 있으면 부정

d. 그 외는 중립부정(=의심, 걱정, 추측, 소문, 들어보니~ 어떻다던데 괜찮나요?)

→ (자기 취향에 대한 불만)

e. 브랜드가 고칠 수 있는 문제(제품 규격/설계 문제 제기, “왜 이렇게 나오냐” 운영 비판)면 부정

f. 고칠 수 없으면(디자인 취향, 개인 체형 문제, 퍼스널 컬러 문제 등) 중립부정
- ‘’안 이쁘다”, “촌스러”, “질린다”, “유행 끝”, “흔해짐” 등 포함

교환, 환불 고민? : 중립불안?

3. 정보성 글, 질문, 구매후기/인증글, 투표글(투표, 골라주세요)

(여러 감정표현이 섞였지만 딱히 우세한 감정은 없음, 제품/사이즈 고민 중(골라주세요X))

→ g. 중립

4. 칭찬, 만족, 추천 등 긍정 감정만 있는 경우

→ h. 긍정

5. 다른 브랜드 글이 대부분이고, '저도 까르띠에 있어요' 와 같이 유의미한 내용이 없을 경우

→ i. 라벨링 별도로 붙이기 (타브랜드)

*** 중립불안/부정 기준 ***

부정 : 부정감정이 확실한 것 + 브랜드가 고칠 수 있는 문제
약간 디자인이 별로인 것 같은데 저만 이런가요? → 중립부정 (개인 취향)

'내일배움캠프-데이터분석' 카테고리의 다른 글

Week 20-4 최종프로젝트 - 브랜드 필터링, 감성분석 라벨링 (0)	2026.03.05
Week 20-3 최종프로젝트 - 브랜드 필터링 (0)	2026.03.04
Week 18-5 최종프로젝트 - 데이터 전처리, 키워드 사전 구축 (1)	2026.02.20
Week 18-4 최종프로젝트 - 데이터 전처리 (0)	2026.02.19
Week 17-1 ~ 17-5 최종프로젝트 주제 선정 및 분석 시작 (0)	2026.02.13

'내일배움캠프-데이터분석' Related Articles

kyejin0412 님의 블로그

Week 19-3 최종프로젝트 - BERT 분석 방향 수정 본문

Week 19-3 최종프로젝트 - BERT 분석 방향 수정

머신러닝할 때 비지도학습 / 지도학습 정하는 법

감성분석 기준

'내일배움캠프-데이터분석' 카테고리의 다른 글

티스토리툴바