kyejin0412 님의 블로그

당근페이 라이브톡 #2 어쩌다 결제 도메인에서 이런 것들을 만들었을까?

kyejin0412 — Tue, 31 Mar 2026 20:05:30 +0900

배운점

택배 TF를 하면서 그로스까지 성공하고, 중고거래팀과 힘을 합쳐서 원팀으로 일했다.

항상 사용자 경험과 목소리를 중요시했다.

겉필링(직감)과 데이터 기반 근거로 일했다.

1. 메이커는 불편해야 한다.

2. 직접 사용자입장을 겪어보면서 페인포인트를 찾고, 과정을 경험하자.

3. 리얼월드에서 발생할 수 있는 변수들에 대응하자.

4. 행안부 지도 api를 사용하기 때문에 행안부 데이터센터에 불이 났을 때 서비스가 멈춰버렸다. 이후 이중으로 대비하게 되었다.

5. 페인포인트 : 사기꾼, 반택 개인정보 보호 (택배예약)

6. 안심결제 + 택배예약 -> 바로구매 (사기꾼 방지, 편리성)

7. 택배예약할 때 어쩔 수 없이 정보 입력 단계가 늘어나서 이탈이 여기서 늘어났던 것 같다. 이탈을 줄이기 위해 데이터를 열심히 봤었다.

8. 유저보이스를 듣고, 데이터 분석하고, 퍼널을 부셨다. 그 결과가 숫자가 눈으로 보였고 사용자 반응이 너무 좋았다.

9. 전국 오픈한 이후로 대시보드의 모든 지표가 올라가고 있다. 출근하자마자 대시보드를 확인한다. -> 데이터 분석가로서 대시보드를 보는 사람과 필요성에 맞게 설계하는 것의 중요성을 느꼈다.

10. 팀 분위기 : 팀원간 신뢰가 있으니 충돌도 있는 것이다. 팀원이 중요하다. 중고거래결제팀이 소수 정예팀이라 일당백을 해야 한다. 각자 업무 영역을 나누지 않고 업무의 경계 없이 일을 한다. 모두가 PM, 개발자, 디자이너, 데이터 분석가다.

11. 지금까지는 사용자가 겪는 불편함을 위주로 개발해왔다. 다음 목표는 디테일까지 챙겨서 완성도 있는 서비스를 만드는 것이다.

새로운 페인포인트를 발견해서 또 해결해 나갈 것 같다.

12. 신사업을 하게 될 때, 비즈니스적으로 달성 목표와 사용자의 니즈의 밸런스를 잘 잡아야 한다. 밸런스 지점을 조율해나가며 발전시켜야 한다. 감에만 의존하지 않고 데이터 기반 근거있는 판단을 하려고 한다.

13. 당근에서는 원래 비대면 거래를 장려하지 않았다. 따라서 주의 메세지를 띄웠었는데 이 메세지가 많아지다 보니 많은 사람들이 비대면 거래를 한다는 것을 알게 되었다. 직감과 직감을 증명해낼 명확한 데이터를 바탕으로 니즈를 파악하고 비대면 거래도 발전시키게 되었다.

14. 당근은 충돌을 긍정적으로 생각하고, 근거만 있다면 누구든 목소리를 낼 수 있다.

15. 프로덕트의 성공과 실패기준 : 사업적인 목표를 이뤘는지? 단/중/장기 목표를 세웠다. 사용자가 애정을 갖고 사용하는지. 건강한 사용자 경험이 되고 있는가.

16. 이탈 구간을 매일매일 확인하고 있다. 주의깊게 봐야 하는 이슈인지, 당연하게 발생하는 이슈인지 구분을 하는게 가장 중요하다. 점점 무시하고 넘어가는 이슈가 많아졌던 것 같다. 구분이 잘 안되면 모니터링을 하는 의미가 없다.

17. 당근의 기본철학이 동네에서 직거래하는 것이다. 우리의 철학과 맞으며, 유저가 원하는 방향인가가 중요하다. 바로구매는 이 둘이 충족하는 것 같아서 시험적으로 시작한 서비스이다.

[BDAI] 원데이 클래스 - SQL 기반 KPI 설정

kyejin0412 — Sun, 29 Mar 2026 12:14:11 +0900

IT 인프라 환경 종류

개발계 = 개발 환경 (Dev Environment)
운영계 = 운영 환경 (Prod Environment)
분석계 = 분석 환경 (Analytics/Data Environment)
예시

금용 도메인 예시

커머스 도메인 예시

KPI 지표 설정 방법

1. KPI 개념

KPI 지표 : 서비스에 관련된 모든 이해관계자들이 정량적으로 높이고 싶은 공통 목표. 달성하면 좋은 것들.

분석가로서 궁금한 내용이 아님!!

제너럴하고 정량적인 지표로 설정해야 함. (정성적 지표 X)

지표가 늘어난다 = 서비스가 더 발전한다, 좋아진다 로 이어져야 함.

KPI를 보고 업무의 우선순위도 알 수 있고, 어떤 걸 발전시켜야 하는지 알 수 있음.

구체적이고 정량적이어야하고, 기간이 필요하거나 용어의 정의가 중요하다.

왜 이 KPI를 달성해야 하는지 근거가 필요함. 그래야 사람들이 납득하고 달성하고자 노력하고 움직일 수 있음.

인과관계가 데이터로 입증이 되어야 하고 근거, 비즈니스 로직이 탄탄해야 한다.

내 주관이나 추측, 당연히 그렇겠지~ 가 들어가면 안됨!

2. 도메인과 상황 고려

도메인과 해당 기업의 상황에 맞는 KPI를 설정해야함.

예를 들어, 매출 증가율은 매출이 증가할 상황에 놓여있는 기업에서 설정해야 함.

카카오톡은 이미 전국민이 쓰고 있어서 매출 증가 혹은 고객 증가가 KPI로 설정되기는 적합하지 않음

신규보다는 리텐션을 보는 것이 적합할 것임.

AARRR을 기반으로 설정하는 거 추천.

3. 음악 서비스로 들어보는 예시

ex) 음악 서비스 KPI 좋은 사례

월간(혹은 연간)매출의 성장률
재구매 고객 비율
분기 당 매출 성장률
신규 고객 획득 수(신규사업), 고객 유지율(기존사업) -> 이 둘은 동시에 가져가기는 어렵다. 도메인이나 상황에 맞는 KPI를 설정하는 것도 중요하다!
전월 대비 인보이스 수량 증가율
특정 기간동안의 유료 이용자 수
헤비 유저 수, 라이트 유저 수
월별/주별 이용자 수
플레이리스트 생성 개수 (도메인에 적합)
월별 신규 고객의 구독률

ex) 안 좋은 사례

유지고객 -> 유지고객의 정의가 필요함
정성적 지표는 의미 없음
재구매율 -> 음악 서비스에서 재구매라 하기가 애매함
반복되는 고객 수 -> 어떤게 반복된다는 건지? 구매? 방문? 듣기? 용어의 정의를 구체적으로!
곡을 구매한 고객들 중 특정 곡을 거래한 고객 비율 -> 분석가가 궁금한 내용
구매한 고객 수 -> 헤비 유저와 라이트 유저가 똑같이 카운트 됨. 구체적으로 나눠야 함
월별/연별 등 특정 주기의 수익 -> 이미 수익은 항상 트래킹 중이기 때문에 애매함
거래가 활발한 시간대 혹은 기간 -> 분석가가 궁금한 내용
객단가 최다 구간 -> 분석가가 궁금한 내용
장르별 매출 -> 분석가가 궁금한 내용
신규 유입 고객수 -> 신규의 기준이 언제인지? 월별? 합리적인 신규 유입 기간을 설정해야 함
재구매 주기 -> 노래 구매 서비스에서 재구매라는게 애매함

참고 용어

MAU (= monthly active user)

WAU (= weekly active user)

Week 21-5 내일배움캠프 수료식 및 수료 소감

kyejin0412 — Fri, 13 Mar 2026 19:00:54 +0900

드디어... 내부캠 수료날이다.

처음 시작할 땐 언제 끝날까 엄청 남았다 싶었고

중간쯤에는 포기하고 싶었던 적도 있었다. 시간이 되게 안 간다고 느껴졌다.

최종 프로젝트가 시작됐을 때는 마지막 한달 불태우자라는 마음으로 임했다.

그렇게 오늘이 되었다!

약간 가볍게 배워가자는 마음으로 시작했는데, 열정적인 튜터님과 동료들 덕분에

나도 더 진지하게 임하게 됐던 것 같다.

각자의 강점이 빛나는 분들이 많았고, 겸손하게 나의 길에 정진하자라는 생각을 하게 되었다.

밍글데이 같은 작은 이벤트들 덕분에 리프레시됐던 것 같다.

취업지원도 꾸준히 받을 수 있어서 그게 너무 좋았다.

다시 혼자가 된다면 엄청 막막했을텐데 소통창구가 남아있어서 다행이다.

모두 서로의 인맥이 되고, 든든한 동료가 될 수 있도록 멋지게 취업했으면 좋겠다.

그리고 나 자신이 대견하다! 다음주 월요일이 되면 매일 하던 출석체크가 사라지니 허전함이 클 것 같다.

조금은 휴식을 취하면서, 지원을 꾸준히 해보자.

오늘 들었던 이력서 세션이 정말 큰 도움이 되었다. 현실적인 조언을 들을 수 있어서 값진 시간이었다.

잊지말고 다음 스텝으로 나아가자!

모든 취준생들이여 화이팅!!

기회는 인생의 위기에
예술은 가끔의 실수에
길을 헤메던 발자국은 지도가 되고,
불완전하게 어두워지는것을 반복하던 빛은 별이 된다.
그렇게 인생은 지나고보면 휘황찬란한 별밭이었다.
- 허진성 튜터님 공유글

우리 졸업했어요!!

Week 21-4 최종프로젝트 - 발표 피드백, 이력서 작성 세션

kyejin0412 — Thu, 12 Mar 2026 21:48:15 +0900

발표 피드백

우리팀 피드백

키워드분석에서 그치지 않고 점수로 모델 설계한게 의미가 있었다.
문제정의와 전략제안까지 구조가 좋았다.
실무적으로 많이 하고 있는 작업이니까 마케팅 데이터 분석할 때 도움이 될 것 같다.

면접 예상질문

- 리스크를 하나의 범주로 묶지 않고, 평판 리스크/운영 리스크/품질 리스크로 나누지 않은 이유는 무엇인가요?

- threshold 0.45를 최종 선택했을 때, 실제 운영 환경에서 감수하려는 오탐과 미탐의 기준은 무엇인가요? precision-recall은 threshold에 따라 달라지므로 그 기준 설명이 중요합니다.

- 최종 리스크 점수의 가중치(0.5, 0.3, 0.2)는 어떤 실험이나 근거를 바탕으로 설정했나요? 확률 점수가 실제 위험도로 해석 가능한지 calibration 관점에서 점검해봤는지도 궁금합니다.

- 댓글 비율/좋아요·조회수를 포함한 확산 점수를 조기 탐지와 어떻게 구분해 해석하셨나요? 초기에 잡는 신호와 이미 확산된 신호를 분리해 설명할 수 있나요?

- 가격 인상 이후 웨이팅·재고 부족이 따라오는 패턴을 보여주셨는데, 이를 단순 동시 발생이 아니라 시간에 따른 토픽 변화로 더 엄밀히 검증한다면 어떤 방식으로 확장할 수 있을까요? BERTopic도 topic evolution을 시간축으로 보는 기능을 안내하고 있습니다.

타팀 피드백

문제정의 -> 액션까지 흘러가는 스토리가 자연스럽게 이어져서 좋았다.
AI Agent 로 팀원수 부족을 극복했던게 기특하다.

공공데이터 수집을 훌륭하게 해냈다. 지도로도 잘했다.
많이 고민한 흔적이 보였다, 전처리, 모델링, 파라미터 튜닝도 잘 되었다.
근데 대시보드가 아쉽다. 알맹이는 좋은데 포장을 잘 못했다.
포폴은 모델을 어떻게 만들었고 이런걸 보는게 아니라 대시보드를 본다.

지표설계가 좋았다.

테마별로 지역을 선정하고 데이터 분석적으로 의미있는 정책을 내서 좋았다.

포폴 만들때는 인사이트 전략 같은거를 앞에 내세우자. 결론을 먼저!

그 후에 eda를 어펜딕스로 빼라.

바로인턴 정보

24기 바로인턴 : 3/16 - 3/24 모집, 4/13~ 근무 시작

매칭 포기해도 n차 매칭을 해주는데 안되면 다음 기수에 참여가능

이력서 pass 한 사람 우대

25기 : 3/25 - 4/24 모집, 5/11~ 근무 시작

근로계약서는 회사랑 직접하고 페이는 회사랑 협의한다.

슬랙 이력서 초안봇, 스파르타코딩클럽 이력서 코칭, 포폴 코칭, 면담 모두 기한, 횟수 무제한이다.

Week 20-5 최종프로젝트 - BERT 리스크/비리스크 분류 모델

kyejin0412 — Fri, 6 Mar 2026 21:45:17 +0900

오늘은 까르띠에 게시글을 리스크/비리스크로 나누는 이진 분류 모델을 만들었다.

라벨링 데이터에서 부정(0), 중립부정(1) -> 리스크(1) / 중립(2), 긍정(3) -> 비리스크(0) 로 다시 라벨링하여 학습시켰다.

데이터가 1000개 정도로 늘어나 안정적인 수치의 모델을 만들 수 있었다.

머신러닝/딥러닝에서 데이터의 개수가 많을수록 좋다는 것을 체감했다.

오늘은 BERT 모델을 만들면서 배운점을 기술하고자 한다.

시도한 모델 종류

klue/bert-base : 한국어 성능이 안정적임 -> 결과가 더 좋았음.
beomi/KcELECTRA-base : 네이버 댓글 + 커뮤니티 데이터 학습된 모델 -> 시크먼트 카페 데이터이므로 사용해봄.

식별자 컬럼 살리기

타브랜드 필터링 bert 모델을 만들 때, 학습데이터에서 식별자 컬럼(ID)을 없앤 적이 있었다.

나중에 전체데이터에서 학습데이터를 빼고 모델을 적용시키려는데, 학습데이터의 식별자 컬럼이 없어서 전체데이터에서 골라낼 수가 없었다... 바보같은 실수였다.

식별자 컬럼은 웬만하면 살려두자!

Hugging Face Datasets

자연어 처리(NLP), 컴퓨터 비전, 오디오 등 AI 모델 학습에 필요한 대규모 데이터를 쉽게 찾고, 다운로드하고, 전처리하여 사용할 수 있도록 해주는 오픈 소스 플랫폼이자 데이터 관리 라이브러리
방대한 공개 데이터셋: 수천 개 이상의 데이터셋(텍스트, 이미지, 오디오 등)이 등록되어 있어, 원하는 데이터를 쉽게 검색하고 사용할 수 있다.
원라인 로딩 (One-line Loading): load_dataset("dataset_name") 명령 하나로 데이터를 로드하여 바로 모델 학습에 사용할 수 있다.
효율적인 메모리 관리: Apache Arrow 형식을 기반으로 하여, RAM 크기 제한을 받지 않고 대용량 데이터도 빠르게 처리(Memory-mapped)할 수 있다.
전처리 기능 (Preprocessing): dataset.map()을 사용하여 데이터를 쉽게 가공, 필터링, 분할(split)할 수 있다.
프레임워크 연동성: PyTorch, TensorFlow, JAX, Pandas, NumPy 등 다양한 머신러닝 프레임워크와 완벽하게 호환된다.
스트리밍 모드: 데이터를 로컬에 모두 다운로드하지 않고도 스트리밍(Streaming) 방식으로 학습을 시작할 수 있어 디스크 공간을 절약할 수 있다.

역비중 (class-weights) - 클래스 불균형 처리

데이터 불균형이 있을 때 아주 중요한 처리이다.

이것을 하지 않으면 성능이 꽤 떨어지는 모습을 보였다.

데이터가 적은 쪽의 컬럼을 좀더 중요하게 학습시킨다.

Threshold Grid Search

튜터님이 알려주신 방법이다.

threshold를 범위를 정해서 for문을 돌려 최적의 threshold를 찾는 것이다.

사실 반복문으로 best threshold를 찾는 건데 이름이 거창해보인다.

PR-AUC (Precision-Recall Area-Under-Curve) 그래프

임계값에 따른 Precision-Recall curve를 나타낸다. (임계값은 0 ~ 1 사이의 확률값을 가진다.)
AUC는 그래프의 곡선 아래 면적을 의미한다.

임계값이 0에 가까울수록 Recall은 높아지지만, 0의 오차 건수가 동시에 많아지므로 Precision은 낮아진다.
반대로 임계값이 1에 가까워지면 Recall은 낮아지지만, Precision은 높아진다.
이처럼 두 지표의 상충관계에 의해 그래프는 감소하는 형태를 띄게 된다.

불균형 기준, 대략적인 PR-AUC해석

0.5 이하	거의 못 잡는 모델
0.6 ~ 0.7	baseline 수준
0.7 ~ 0.8	실무 사용 가능
0.8 ~ 0.9	좋은 모델
0.9+	매우 강력

F-Beta Score

f1-score 뿐 아니라 f-beta score라는 것이 있다.

숫자를 직접 설정해줄 수 있다.

beta=1 : precision과 recall에 동일한 가중치를 부여한 조화평균
beta > 1 : recall에 더 많은 가중치 부여 (FN 감소가 중요하다! 리스크를 더 많이 잡아내자)
beta < 1 : precision에 더 많은 가중치 부여 (FP 감소가 중요하다! 잘못 예측하는 것이 위험하다)

우리 주제는 리스크 조기탐지이므로, 리스크를 놓치는 게 더 치명적이었다.

따라서 FN의 감소가 중요하여, f2-score를 만들어서 성능을 비교했다.

모델 평가 기준 (metric = 평가 지표)

recall >= 0.8
precision >= 0.55
이 중 threshold, f2-score가 가장 높은 것
precision을 아예 신경쓰지 않으면, FP가 높아지게 된다. 이를 사람이 모두 검토하기에는 부담이다.
따라서 recall을 1순위로 확보하면서, precision을 너무 낮게 가져가지 않는다. f2-score 또한 확인해준다.
리스크 탐지에서는 보통 threshold를 0.35~0.4로 낮춰서 리스크를 놓치지 않도록 민감하게 잡는다.

참고로, 모델 비교 시에는 f2-score를 우선으로, threshold 선택시에는 recall을 우선으로 본다고 한다.

SEED 고정 필수

BERT 학습에는 랜덤 요소가 여러 개 들어 있다.

대표적으로

1️⃣ train / validation split 랜덤
2️⃣ weight initialization
3️⃣ dropout
4️⃣ GPU 연산 비결정성

보통 seed = 42로 설정함

코드를 돌릴 때마다 결과값이 조금씩 달라졌다. 다른 팀원이 돌렸을 때는 값이 좀더 차이난다고 느낄 정도였다.

이는 seed 설정을 안해줬기 때문이었다.

위의 랜덤요소가 매번 달라지기 때문에 당연한 결과였다.

seed를 보통 42로 설정하여 결과값이 달라지지 않게 한다!

하지만 BERT는 seed를 고정해도 약간씩 달라질 수 있다.

이럴경우 보통 3번 정도 돌리고 평균 threshold로 설정하곤 한다!

Confusion Matrix (혼동행렬)

읽는 순서
[TN FP]
[FN TP]
[72 54]
[13 68]

TN	72	비리스크를 비리스크로 맞춤
FP	54	비리스크를 리스크로 잘못 탐지
FN	13	리스크를 놓침
TP	68	리스크를 맞게 탐지

리스크 탐지에서는 리스크를 놓치지 않는 것이 중요!

따라서 FN 이 낮은 것이 중요하다.

FP가 높은 것은 리스크 탐지 모델에서는 괜찮다.

"리스크를 놓치는 것보다 과탐지가 낫다"

코랩 GPU 사용시 주의사항

가끔 현재 코드가 GPU를 사용하지 않는다는 내용의 alert이 떴다.

난 무시하고 계속했는데, 나중에 GPU 스토리지 할당량을 초과하여 사용할 수 없게 되었다.

코랩 무료버전은 그렇게 끝이 났다..

BERT모델은 GPU를 보통 사용한다고 했고, CPU로 돌렸을 때 매우 느렸다.

따라서 부캠에서 지원해주는 돈으로 코랩 프로를 결제했다.

더 좋은 GPU 를 사용할 수 있었다. 훨씬 빠른 느낌이었다!

다음에는 GPU alert을 무시하지 말아야겠다...

코드

# 코랩에 라이브러리 설치
!pip install transformers
!pip install torch
!pip install scikit-learn
!pip install pandas
!pip install tqdm

# 구글 드라이브 연결
from google.colab import drive
drive.mount('/content/drive')

# 학습데이터 불러오기
import pandas as pd

path1 = "/content/drive/MyDrive/BERT 감성분석용 1차라벨링 545.csv"
path2 = "/content/drive/MyDrive/BERT 감성분석용 2차라벨링 491.csv"

df1 = pd.read_csv(path1)
df2 = pd.read_csv(path2)

df = pd.concat([df1, df2], ignore_index=True)

df = df[['naver_article_id','text','label']]
df = df.dropna()

print(len(df))
df.head()

# 라벨 이진화 - 리스크(0,1) / 비리스크(2,3)
df['risk_label'] = df['label'].apply(lambda x: 1 if x in [0,1] else 0)

# seed 설정
import random
import numpy as np
import torch

seed = 42

random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)

# Train / Validation 분리
from sklearn.model_selection import train_test_split

train_df, val_df = train_test_split(
    df,
    test_size=0.2,
    stratify=df['risk_label'],
    random_state=42
)

# tokenizer
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

# Dataset 클래스
import torch
from torch.utils.data import Dataset

class RiskDataset(Dataset):

    def __init__(self, df):
        self.df = df.reset_index(drop=True)

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):

        text = str(self.df.loc[idx,'text'])
        label = self.df.loc[idx,'risk_label']

        encoding = tokenizer(
            text,
            truncation=True,
            padding='max_length',
            max_length=256,
            return_tensors='pt'
        )

        return {
            "input_ids": encoding["input_ids"].squeeze(),
            "attention_mask": encoding["attention_mask"].squeeze(),
            "labels": torch.tensor(label)
        }
        
# Dataset 생성
train_dataset = RiskDataset(train_df)
val_dataset = RiskDataset(val_df)

# 모델 로드
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
    "klue/bert-base",
    num_labels=2
)

# 역비중치(class-weights) 추가
from sklearn.utils.class_weight import compute_class_weight
import torch
import numpy as np

class_weights = compute_class_weight(
    class_weight="balanced",
    classes=np.unique(train_df["risk_label"]),
    y=train_df["risk_label"]
)

class_weights = torch.tensor(class_weights, dtype=torch.float)

print("Class weights:", class_weights)

# WeightedTrainer 정의
from transformers import Trainer
from torch.nn import CrossEntropyLoss

class WeightedTrainer(Trainer):

    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):

        labels = inputs.get("labels")

        outputs = model(**inputs)

        logits = outputs.get("logits")

        loss_fct = CrossEntropyLoss(
            weight=class_weights.to(model.device)
        )

        loss = loss_fct(logits, labels)

        return (loss, outputs) if return_outputs else loss
        
# 학습 설정
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="/content/drive/MyDrive/BERT",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=5,
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    seed=42
)

# 평가 metric (f1 확인 - precision 0.55이상, recall 0.8이상이 목표. f1은 이 둘의 평균 지표)
from sklearn.metrics import accuracy_score, f1_score
import numpy as np

def compute_metrics(pred):

    labels = pred.label_ids
    preds = np.argmax(pred.predictions, axis=1)

    acc = accuracy_score(labels, preds)
    f1 = f1_score(labels, preds)

    return {
        "accuracy": acc,
        "f1": f1
    }
    
# Trainer
from transformers import Trainer

trainer = WeightedTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    compute_metrics=compute_metrics
)

# 학습
trainer.train()

# Validation 에 필요한 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import (
    precision_score,
    recall_score,
    f1_score,
    confusion_matrix,
    precision_recall_curve,
    auc
)

# Validation 예측
from scipy.special import softmax

pred_output = trainer.predict(val_dataset)

logits = pred_output.predictions
y_true = pred_output.label_ids

# softmax 확률
probs = softmax(logits, axis=1)

# 리스크 확률만 사용
probs = probs[:,1]

# 기본 metric (threshold = 0.5)
threshold = 0.5
y_pred = (probs >= threshold).astype(int)

precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

print("=== 기본 평가 (threshold=0.5) ===")
print("Precision:", precision)
print("Recall:", recall)
print("F1:", f1)

# Confusion Matrix
cm = confusion_matrix(y_true, y_pred)
print("\nTN FP\nFN TP")
print("\nConfusion Matrix")
print(cm)

# Threshold Grid Search
from sklearn.metrics import fbeta_score

thresholds = np.arange(0.30, 0.61, 0.05)

results = []

print("\n=== Threshold Grid Search ===")

for t in thresholds:

    pred = (probs >= t).astype(int)

    p = precision_score(y_true, pred)
    r = recall_score(y_true, pred)
    f1 = f1_score(y_true, pred)
    f2 = fbeta_score(y_true, pred, beta=2)

    results.append([t, p, r, f1, f2])

    print(f"threshold={t:.2f} | precision={p:.3f} recall={r:.3f} f1={f1:.3f} f2={f2:.3f}")

result_df = pd.DataFrame(
    results,
    columns=["threshold", "precision", "recall", "f1", "f2"]
)

candidate = result_df[(result_df["recall"] >= 0.8) & (result_df["precision"] >= 0.55)]

best_row = candidate.loc[candidate["f2"].idxmax()]

print("\nBest Threshold (Recall>=0.8, precision>=0.55 기준)")
print(best_row)

# PR-AUC
precision_curve, recall_curve, _ = precision_recall_curve(y_true, probs)
pr_auc = auc(recall_curve, precision_curve)

plt.figure()
plt.plot(recall_curve, precision_curve)
plt.xlabel("Recall")
plt.ylabel("Precision")
plt.title(f"PR Curve (AUC={pr_auc:.3f})")
plt.show()

참고 링크

https://data-minggeul.tistory.com/10

ROC-AUC, PR-AUC 개념 비교 정리

머신러닝에서 분류 모델에 대한 평가 지표로 자주 활용되는 지표로 ROC-AUC, PR-AUC가 있다. 이진 분류 모델의 경우 0에서 1사이의 확률값을 예측한 뒤 임계값 (Threshold) 을 기준으로 0, 1을 분류한다.

data-minggeul.tistory.com

Week 20-4 최종프로젝트 - 브랜드 필터링, 감성분석 라벨링

kyejin0412 — Thu, 5 Mar 2026 12:56:59 +0900

브랜드 필터링

어제까지 했던 브랜드 필터링을 이어서 정리하겠다.

팀원의 모델 성능이 좀더 좋아서 그거로 했는데, 약간의 오류가 생겨서 내 모델을 혼자 다시 보완해보았다.

BERT 모델은 GPU를 쓰라고 만들어졌다고 들어서, 무료 GPU를 사용하기 위해 코랩으로 돌렸다.
라벨링 600개 -> 700개 -> 800개로 최종 200개 추가하여 까르띠에(0), 타브랜드(1) 을 이진 분류하는 모델을 만들었다.
threshold(임계값)를 기준으로 그 이상이면 1, 아니면 0으로 분류하는데, 이것으로 성능을 개선한다.
클래스(이번엔 0,1) 불균형이란, 클래스별 데이터 개수의 불균형을 말하는데,
이번에 660:137 로 불균형이 있어서 class_weight로 처리했다.
성능은 threshold 0.4 이하는 모두 같아서, 0.3까지 확인하고 멈췄다.
주의할 점 : 고유 식별 컬럼(PK)는 지우지 말자!
학습데이터에서 고유 식별자인 naver_article_id를 지우고 text, label 컬럼만 남겼었는데, 전체 데이터에서 빼려고 하니 식별자가 없어서 뺄 수가 없었다. text로 같은 내용인 행의 id를 매칭해줘도 학습 데이터 개수와 매칭된 데이터 수가 너무 달랐다.
애초에 지우지 말자!!!

이진 분류 모델 코드

!pip install transformers datasets scikit-learn -q


# 라이브러리
!pip install transformers

import pandas as pd
import torch
import torch.nn as nn

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from torch.utils.data import Dataset, DataLoader
from torch.optim import AdamW


# 구글 드라이브 연결
from google.colab import drive
drive.mount('/content/drive')


# 데이터 불러오기
file_path = '파일 경로'

df = pd.read_csv(file_path)


# Train / Validation 분리
texts = df["text"].astype(str)
labels = df["label"]

train_texts, val_texts, train_labels, val_labels = train_test_split(
    texts,
    labels,
    test_size=0.15,
    stratify=labels,
    random_state=42
)


# 토크나이저
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")


# Dataset 만들기
class TextDataset(Dataset):
    
    def __init__(self, texts, labels):
        self.texts = texts.tolist()
        self.labels = labels.tolist()
    
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        
        encoding = tokenizer(
            self.texts[idx],
            truncation=True,
            padding='max_length',
            max_length=128,
            return_tensors="pt"
        )
        
        item = {key: val.squeeze(0) for key, val in encoding.items()}
        item["labels"] = torch.tensor(self.labels[idx])
        
        return item
        
        
# 데이터 로더
train_dataset = TextDataset(train_texts, train_labels)
val_dataset = TextDataset(val_texts, val_labels)

train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=16)


# 모델 로드
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model = AutoModelForSequenceClassification.from_pretrained(
    "klue/bert-base",
    num_labels=2
)

model.to(device)


# 옵티마이저
optimizer = AdamW(
    model.parameters(),
    lr=2e-5
)


# class weight(중요!! 불균형 데이터이므로 성능 개선을 위해 불균형 처리)
class_weights = torch.tensor([1.0, 4.8]).to(device)

loss_fn = nn.CrossEntropyLoss(weight=class_weights)


# 학습
num_epochs = 5

for epoch in range(num_epochs):

    print(f"\nEpoch {epoch+1}")

    model.train()
    total_loss = 0

    for batch in train_loader:

        optimizer.zero_grad()

        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        labels = batch["labels"].to(device)

        outputs = model(
            input_ids=input_ids,
            attention_mask=attention_mask
        )

        loss = loss_fn(outputs.logits, labels)

        loss.backward()

        optimizer.step()

        total_loss += loss.item()

    print("Train Loss:", total_loss / len(train_loader))
    
    
   # 평가
   model.eval()

preds_all = []
labels_all = []

with torch.no_grad():

    for batch in val_loader:

        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        labels = batch["labels"].to(device)

        outputs = model(
            input_ids=input_ids,
            attention_mask=attention_mask
        )

        # preds = torch.argmax(outputs.logits, dim=1)
        probs = torch.softmax(outputs.logits, dim=1)[:,1]   # 타브랜드 확률
        preds = (probs > 0.3).long()                        # threshold

        preds_all.extend(preds.cpu().numpy())
        labels_all.extend(labels.cpu().numpy())

print(classification_report(labels_all, preds_all))

성능 비교

1. preds = torch.argmax(outputs.logits, dim=1)

precision recall f1-score support

0 0.92 0.99 0.95 99

1 0.92 0.57 0.71 21

accuracy 0.92 120

macro avg 0.92 0.78 0.83 120

weighted avg 0.92 0.92 0.91 120

2. threshold 0.45
precision recall f1-score support
0 0.92 0.99 0.96 99
1 0.93 0.62 0.74 21
accuracy 0.93 120
macro avg 0.93 0.80 0.85 120
weighted avg 0.93 0.93 0.92 120

3. threshold 0.4
precision recall f1-score support
0 0.93 0.99 0.96 99
1 0.93 0.67 0.78 21
accuracy 0.93 120
macro avg 0.93 0.83 0.87 120
weighted avg 0.93 0.93 0.93 120

4. threshold 0.35
precision recall f1-score support
0 0.93 0.99 0.96 99
1 0.93 0.67 0.78 21
accuracy 0.93 120
macro avg 0.93 0.83 0.87 120
weighted avg 0.93 0.93 0.93 120

5. threshold 0.3
precision recall f1-score support
0 0.93 0.99 0.96 99
1 0.93 0.67 0.78 21
accuracy 0.93 120
macro avg 0.93 0.83 0.87 120
weighted avg 0.93 0.93 0.93 120

리스크 조기탐지 시스템 - 중요한 성능

리스크를 잡아내는 게 중요하다!

비리스크를 리스크로 오해하는 것은 괜찮다.

리스크를 비리스크로 오해하는 것이 위험하다. '조기탐색' 이므로, 과하게 잡는건 문제가 되지 않는다.

감성분석을 위한 추가 라벨링

감성분석은 2단계로 나누기로 했다.

튜터님도 GPT도 바로 4분류를 하는 것보다, 단계를 낮춰서 모델의 부담을 줄이고, 정확도를 올릴 수 있을 것 같다고 하셨다.

1차 라벨링 데이터 개수는 545개여서, 모델 성능을 높이기 위해 500개를 추가하기로 했다.

비정형 데이터 라벨링의 가장 어려운 점은, 경우의 수가 너무 많고 기준이 애매하다는 점이다.

기준을 세세하게 세워도 기준에 해당하지 않는 변수가 나타난다.

기준을 명확하고 논리적으로 세우는 것, 기준을 따라 일관적으로 라벨링 하는 것이 가장 중요하다.

1차 감성분석 기준

추가 기준 (26.3.5)

여러 사람이 비슷하게 느꼈을 때 리스크로 성장가능성이 있다면 중립불안

사이즈, 취향에 대한 불만 표현 → 중립불안 (주관적)
사이즈, 취향에 안 맞았다는 사실표현 → 중립 (불만 표현 없음)
무거웠다 → 쌓이면 리스크가 될 수 있으니 중립불안
웨이팅 직접 경험 + 불만/부정 감정 표현(힘들었어요 포함) → 부정
웨이팅 직접 경험 + 감정X or 긍정감정 → 중립불안
웨이팅 전해들음 / 정보 전달 → 중립
가격이 오른대요 / 오른다더라구요 등 정보전달 → 중립
가격 인상 전 구매했어요 / 인상 전 얼른 사세요 / 가격 인상이래요ㅠ 등 그 전에 사야 한다는 뉘앙스, 약한 부정감정 → 중립부정
또 가격 인상이네요 짜증나요 / 가격이 사악해요 등 불만표현 → 부정
재고부족 직접 경험 + 불만/부정 감정 표현 (또 없대요, 맨날 없어요, 언제 들어와요 등등) → 부정
재고부족 직접 경험 + 감정X or 긍정감정 → 중립불안
재고부족 전해들음 / 정보 전달 → 중립
생활기스, 부딪혀서, 떨어뜨려서 기스가 났다 → 중립 (본인의 문제)
제품이 기스가 잘 나는 제품 같다는 뉘앙스 → 중립불안 (제품의 문제)

[제거대상]

부정 감정/행동 + 긍정 감정/행동 → 애매하니까 제거, 모델이 학습하기 어렵기 때문

튜터링 내용

[분석 방향 튜터링]

분석 순서
1. 리스크/비리스크 분류
2. 리스크: 부정,중립부정 / 비리스크: 긍정,중립 각각 세부 분류
3. BERTopic으로 부정, 중립부정 카테고리 나누기
4. 전략 제안

팀 나눠서 하기
- 추가 라벨링 (부정, 중립부정 좀더 많이 추가) - grid search가 될 때까지, 최대한 많이
- 기존 라벨링 데이터로 리스크/비리스크 분류 → 결과 제일 좋은거 채택 → 추가된 라벨링 데이터로 성능 개선
- 추가된 라벨링으로 바로 4분류한 모델에 재학습 시켜보기. (실무에선 리스크탐지에 리콜 60% 이상이면 사용함)

리스크 탐지모델 성능 높이는 일반적인 프로세스
1. 역비중 가중치 유지
2. threhold grid search(0.3, 0.35, 0.4, 0.45 ... 0.6) - 반복문으로 best threshold 찾기
3. 그래프 확인(PR-AUC, LiftChart, Expected Profit) - 그래프 확인해서 최종 best threshold 찾기

[감성분석 기준 튜터링]

두가지 방법이 있음

1. 감성분석 라벨링 -> 감성으로만 판단

2. 리스크 탐지 라벨링 -> 리스크가 될 수 있을 만한 신호를 모두 부정적으로 잡아냄 (좀더 민감)

- 보통의 라벨링 순서는?

1. 감성 라벨링 -> 감성기준으로만

2. -> 리스크는 토픽별로 잡는게 일반적

- 왜?

중립 중에 가격, 무게, 내구성 등 일부 키워드들의 빈도수를 보고 리스크 포인트가 되는지 확인하는게 안전함 + 부정 토픽 -> 리스크

- 우리한테 적합한 방법은?

긍정 부정이 같이 있으면 중립으로 보는게 나을듯
애매한 거는 라벨링 데이터에서 빼기
-> 중립을 많이 넣고 싶으면 중립으로 하고 명확한 거만 라벨링 하는게 나을듯
LLM 쪽은 감성을 명확하게 하는 편인데, 지금은 리스크 탐지니까 리스크 탐지를 위주로 해도 됨
기준을 바꿔서 앞에 라벨링 한거까지 다시 검토하는건 비효율적임. 시간 오래걸리는건 지양하고 하던대로 하자
현업에서도 리스크 탐지를 위한 경우 2번 방법으로 하는 경우가 꽤 있음

Week 20-3 최종프로젝트 - 브랜드 필터링

kyejin0412 — Wed, 4 Mar 2026 20:50:32 +0900

브랜드 필터링

라벨링을 끝내고, BERT 모델을 만드는 와중에 걸림돌을 발견했다.

부정, 중립부정, 중립, 긍정, 타브랜드로 라벨링을 하고 모델을 학습시키는데 타브랜드의 평가지표가 모두 0으로 나오는 것이었다.

타브랜드의 데이터 개수가 11개로 너무 적어서 발생하는 문제였다. 모델이 타브랜드인지 잡아내질 못한다.

전체데이터에 적용할 경우, 타브랜드의 얘기인데 까르띠에로 판단하여 인사이트가 오염될 수 있었다.

따라서 브랜드 필터링부터 다시해야하는 상황이 되었다....!

먼저 BERT로 까르띠에를 판단하는 이진 분류 모델을 만든 후, 전체 데이터에 적용하여 까르띠에 게시글만 남긴다. 그 다음,

1) 리스크/비리스크로 나눈 뒤, 리스크 안에서 중립부정, 부정을 나눔

2) 부정, 중립부정, 중립, 긍정 4개로 감성분석 진행

이렇게 두 가지를 수행 후 비교하여, 더 나은 성능의 모델로 채택하기로 했다.

총데이터 600개 중 타브랜드 55개로 이진 분류 모델을 학습시켰는데 성능이 안 좋았다.

epoch수, threshold를 바꿔서 성능을 올리는 데에는 한계가 있었다.

데이터 수가 너무 적었기 때문에, 이 모델로 타브랜드일 확률이 높은 데이터들을 순서대로 sort한 다음,

51~100개의 데이터를 추가로 라벨링 했다(까르띠에:0, 타브랜드:1).

그 결과, 확연하게 좋아지는 모습을 보였다. (이전엔 리콜이 0: 1.00 / 1: 0.00 이었다...)

데이터 추가 후 결과

팀원들과 결과를 비교하여 제일 좋게 나온 모델로 결정을 했고, 전체 데이터에 적용하여 까르띠에만 다시 필터링했다.

이거로 감성분석을 진행하면 된다.

금방 끝났으면 좋겠다..!

배운점

딥러닝에서 데이터가 너무 적을 경우, 조금만 조정하더라도 결과가 휙휙 바뀌고,

모델이 패턴이나 기준을 익히지 못하여 성능이 안 좋을 수 밖에 없다.

Week 19-4 최종프로젝트 - BERT 지도학습을 위한 라벨링

kyejin0412 — Thu, 26 Feb 2026 21:25:48 +0900

오늘은 진전은 크게 없었다.

600개의 데이터를 직접 라벨링하는 작업을 했다.

비정형 데이터를 우리가 정한 기준으로 지도학습을 하기 위해서는, 직접 라벨링을 해주는 작업이 필요하다.

이 작업이 정말 하루 종일 걸려서 오늘은 라벨링만 하다가 끝났다...

나눠서 하면 각자의 기준이 달라 모델링을 위한 기준 라벨링 데이터가 명확하지 않아질 것을 우려하여,

모두가 라벨링을 하고 서로 다른 것만 맞춰보기로 했다.

따라서 우리가 정한 기준을 라벨과 같이 적어줬다. (라벨: 부정:0, 중립부정: 1, 중립: 2, 긍정: 3, 타브랜드: 4)

나중에 왜 이렇게 라벨을 붙였는지 얘기하기 편하게 하기 위함이다.

비정형 데이터가 정말 오래걸리고 애매한 경우가 많다는 것을 몸소 실감했다.

손이 많이 가는 작업인 만큼, 완성했을 때 애정이 커질 것 같다.

그나저나 시간이 좀 촉박하다...!!

라벨링 작업

감성분석 기준

유형 기준

부정	명확한 불만·피해·공격적 표현
중립부정	불안, 의심, 걱정(소문 포함), 추측
중립	정보공유, 질문, 구매후기/인증, 투표글
긍정	만족, 추천, 칭찬

감정, 행동 섞인 경우

→ 감정으로 판단

감정이 여러 개인 경우 (감정1 + 행동 + 감정2 …)

→ (부정 + 중립부정/긍정 감정이 섞여있을 때)

a. 부정 감정이 하나라도 있으면 부정

→ (부정 or 중립부정 키워드 있을 때)

b. 브랜드가 고칠 수 있는 문제(브랜드 운영/제품 품질/가격/유통/CS에 대한 언급)면 부정

c. 확실한 부정표현이 있으면 부정

d. 본인이 겪지 않은거 + 의심, 걱정, 추측, 소문, 들어보니~ 어떻다던데 괜찮나요? : 중립부정

j. 본인이 겪은거 + 저만 이런가요?, 걱정, 추측, 의심o / 그냥 쓰려구요 등 불만 표현 x : 중립부정

k. 본인이 겪은거 + 확실한 불만, 화남, 피해, 공격적 표현 : 부정 - 웨이팅 길었는데 겨우 샀어요 처럼 부정 키워드 섞인 경험을 직접 겪은 경우

→ (자기 취향에 대한 불만)

e. 브랜드가 고칠 수 있는 문제(제품 규격/설계 문제 제기, “왜 이렇게 나오냐” 운영 비판)면 부정

f. 고칠 수 없으면(디자인 취향, 개인 체형 문제, 퍼스널 컬러 문제 등 + 부정적 감정) 중립부정 - ‘’안 이쁘다”, “촌스러”, “질린다”, “유행 끝”, “흔해짐”, “사진빨”, “생각했던 것과 다름” - 부정감정 예시 : “막상 샀는데 다른게 더 예뻐서 후회된다/교환/환불할까 고민된다”

교환, 환불 고민? : 중립불안?

정보성 글, 질문, 구매후기/인증글, 투표글(투표, 골라주세요)

여러 감정표현이 섞였지만 딱히 우세한 감정은 없음, 제품/사이즈 고민 중(골라주세요X)

→ g. 중립

칭찬, 만족, 추천 등 긍정 감정만 있는 경우

→ h. 긍정

다른 브랜드 글이 대부분이고, '저도 까르띠에 있어요' 와 같이 유의미한 내용이 없을 경우

→ i. 라벨링 별도로 붙이기 (4)

개인간 거래, 가품, 리셀

→ L. 불만표현o : 쌓일 경우 브랜드 이미지 손상되므로 중립부정

→ z. 불만표현x : 중립

중립불안/부정 기준

부정 : 부정감정이 확실한 것 + 브랜드가 고칠 수 있는 문제

약간 디자인이 별로인 것 같은데 저만 이런가요? → 중립부정 (개인 취향)

Week 19-3 최종프로젝트 - BERT 분석 방향 수정

kyejin0412 — Wed, 25 Feb 2026 23:50:34 +0900

우린 감성분석으로 긍정/부정/중립부정(걱정,불안,의심 등)/중립 4가지를 나누기로 했다.

이때 사용하기로 한 것이 BERT이다.

BERT 감성분석 -> 중립부정에서 BERTopic으로 클러스터링 하고 대표키워드를 찾기 -> 클러스터링을 바탕으로 유형나누기

유형별 시계열 분석, 댓글데이터로 확산지표 만들어서 분석

이런 식으로 할 것 같다.

원래는 부정을 유형별로 나눈 뒤, 부정 확률수치와 중립부정 확률수치로 리스크 수치를 구해서 리스크인지 판단하고, 확산 정도를 확인하는 방향이었다.

그런데 생각해보니, 우리 주제가 리스크 조기탐색인데 이미 이슈화된 부정 게시글이 아닌, 중립부정에서 조기탐지를 해야 하는 것 아닌가 하는 생각이 들어 팀과 튜터님께 말씀드렸다. 튜터님도 결국은 그 방향으로 가게 될 것 같다, 맞다고 하셨고 팀원들도 동의했다.

본질을 잊지 말고 사고하는 것이 중요하다는 것을 다시 한 번 깨달았고, 방향을 잃지 않도록 기여한 것 같아서 기분이 좋았다.

머신러닝할 때 비지도학습 / 지도학습 정하는 법

비지도 학습을 먼저 할 경우 : 어떻게 분류해야할 지 모를 때, 데이터의 특성을 파악하고 싶을 때, 기준이 없을 때
지도 학습을 할 경우 : 우리한테 기준이 있고, 원하는 기준대로 나누고 싶을 때

우리의 경우, 긍정/부정/중립부정/중립 기준이 있으므로 지도학습을 해야 한다.

비지도학습으로 대충 라벨링을 하고, 그 후 지도학습을 해서 파인튜닝을 하자는 계획이 틀렸다.

기계한테 비지도학습을 시킬 경우, 마음대로 4가지로 나눠버려서 우리 기준대로 그룹화가 잘 안 된다.

우리는 지도학습을 위해 750개의 데이터를 뽑아 라벨링을 하기로 하였다. 중복 제거 후 721개의 행이 남았다.

팀 모두 각자 기준을 확인하며 분류를 해보고, 의견이 갈리는 데이터를 같이 논의하기로 했다.

지도학습을 위한 데이터는 기준이 명확하며 일관적이어야 한다!!

감성분석 기준

[유형 기준]

부정	명확한 불만·피해·공격적 표현
중립부정	불안, 의심, 걱정(소문 포함), 추측
중립	정보공유, 질문, 구매후기/인증, 투표글
긍정	만족, 추천, 칭찬

1. 감정, 행동 섞인 경우

→ 감정으로 판단

2. 감정이 여러 개인 경우 (감정1 + 행동 + 감정2 …)

→ (부정 + 중립부정/긍정 감정이 섞여있을 때)

a. 부정 감정이 하나라도 있으면 부정

→ (부정 감정 or 중립불안 키워드 있을 때)

b. 브랜드가 고칠 수 있는 문제(브랜드 운영/제품 품질/가격/유통/CS에 대한 언급)면 부정

c. 확실한 부정표현이 있으면 부정

d. 그 외는 중립부정(=의심, 걱정, 추측, 소문, 들어보니~ 어떻다던데 괜찮나요?)

→ (자기 취향에 대한 불만)

e. 브랜드가 고칠 수 있는 문제(제품 규격/설계 문제 제기, “왜 이렇게 나오냐” 운영 비판)면 부정

f. 고칠 수 없으면(디자인 취향, 개인 체형 문제, 퍼스널 컬러 문제 등) 중립부정
- ‘’안 이쁘다”, “촌스러”, “질린다”, “유행 끝”, “흔해짐” 등 포함

교환, 환불 고민? : 중립불안?

3. 정보성 글, 질문, 구매후기/인증글, 투표글(투표, 골라주세요)

(여러 감정표현이 섞였지만 딱히 우세한 감정은 없음, 제품/사이즈 고민 중(골라주세요X))

→ g. 중립

4. 칭찬, 만족, 추천 등 긍정 감정만 있는 경우

→ h. 긍정

5. 다른 브랜드 글이 대부분이고, '저도 까르띠에 있어요' 와 같이 유의미한 내용이 없을 경우

→ i. 라벨링 별도로 붙이기 (타브랜드)

*** 중립불안/부정 기준 ***

부정 : 부정감정이 확실한 것 + 브랜드가 고칠 수 있는 문제
약간 디자인이 별로인 것 같은데 저만 이런가요? → 중립부정 (개인 취향)

Week 18-7 BDA x 데이콘 최종과제 공모전 후기

kyejin0412 — Mon, 23 Feb 2026 17:23:12 +0900

BDA의 최종과제는

1. 최종보고서 제출

2. 데이콘 성능 f1-score 0.42 이상

결과부터 말하면 난 성능이 0.39가 최대였어서 수료를 못할 것 같다...ㅜㅜ 어제 새벽 4시까지 했는데 너무 아쉽다.

수료조건이 너무 까다로운 거 아닙니까 BDA!!

수업참여, 과제 다 열심히 했어도 최종과제 모델 성능이 안 나오면 수료를 못 한다니 너무 가혹한듯....

그래도 이번 공모전을 진행하면서 머신러닝에 대해 배운 점은 꽤 있는 것 같다. 이제부터 정리해보겠다.

공모전 소개

https://dacon.io/competitions/official/236664/overview/description

데이콘 x BDA 제 2회 학습자 수료 예측 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

[주제]

학습자의 수료 여부를 예측하는 AI 알고리즘 개발

[설명]

BDA 9기 학습자 데이터를 분석하여 10기 학습자의 수료 여부를 예측하는 AI 알고리즘 개발

[데이터셋]

Dataset Info.(Updated 26.02.10)

1. train.csv [파일]
ID : 샘플별 고유 ID
generation : BDA 기수
school1 : 대학교
major type : 복수전공 여부
major1_1 : 제1전공
major1_2 : 제2전공
major_data : 제1전공 전공자 여부
제 1전공에 '컴퓨터', '인공지능', 'AI', '소프트웨어', '데이터', '통계', '산업경영', '산업' 이 포함되면 True
job : 현재 직무
class1~4 : 수강 분반
re_registration : 학기당 새로운 학회원을 모집할 때 재등록 여부
contest_award : 공모전 수상 경력
nationality : 내/외국인 여부
inflow_route : 유입 경로
whyBDA : BDA를 선택한 이유
what_to_gain : BDA에서 얻고싶은 것
hope_for_group : 조별활동 희망 여부
previous_class_3~9 : 각 기수를 수강했을 시 분반
major_field : 전공 분야
desired_career_path : 희망 진로
completed_semester : 대학교 이수학기
project_type : 팀/개인 중 프로젝트에 참여하고 싶은 형태
time_input : 하루에 BDA에 투입 가능한 시간
desired_job : 희망 직무
certificate_acquisition : 취득한 자격증
desired_certificate : 취득을 희망하는 자격증
desired_job_except_data : 데이터 외 희망 직무
incumbents_level : 어느 정도 연차의 현직자를 원하는지
incumbents_lecture : 어떤 주제의 현직자 강의를 원하는지
incumbents_company_level : 강연 현직자가 어느정도 규모의 회사를 다니는 사람이었으면 좋겠는지
incumbents_lecture_type : 온, 오프라인 중 원하는 현직자 강연 형태
incumbents_lecture_scale : 원하는 현직자 강의 규모
'3~50명 내외의 강의 리스너와 1명의 현직자' 는 '30~50명 내외의 강의 리스너와 1명의 현직자'를 의미합니다.
incumbents_lecture_scale_reason : 현직자 강의 규모 선택 이유
interested_company : 관심있는 기업명
expected_domain : 희망하는 도메인
contest_participation : 데이터 관련 대회 경험
idea_contest : 아이디어 공모전에 대한 경험
onedayclass_topic : 원데이 클래스 주제
completed : (TARGET) 수료 여부(0 - 미수료 , 1 - 수료)

※ 본 대회는 기존 1회 대회와 달리, 중도 탈퇴를 예측하는 것이 아니라 학습 과정을 끝까지 완료하여 ‘수료’에 도달한 학습자를 예측하는 것을 목표로 합니다.

2. test.csv [파일]
ID : 샘플별 고유 ID
completed 칼럼 존재하지 않음.
그 외 train.csv 파일과 구성 동일
sample_submission.csv [파일] - 제출 양식
ID : 샘플별 고유 ID
completed : (TARGET) 수료 여부(0, 1)

실수 회고

train 데이터 전처리를 할 때, 결측치 삭제나 이상치 삭제를 했다. train만 보면 문제가 안되지만, test 데이터에 같은 방식으로 전처리를 해야 했는데 test데이터는 삭제를 하면 안돼서 모델학습을 다 했다가 train 데이터 전처리를 다시 했다...
파생변수를 안 만들었다. 단일변수로만 하려다보니 '이전 수강분반' 컬럼이 과적합이 돼서 '이전 수강 여부' 컬럼을 추가하고 분반명은 다 drop해서 다시 했다.
튜닝이 이렇게 오래 걸릴 줄 몰랐다. XGB 모델은 성능이 좋다그랬고, GPT의 도움을 받으면서 몇 번 손보면 금방 목표 성능이 나올 줄 알았는데 오산이었다. 또한 혼자서도 잘할 수 있을 거라고 자신했는데, 팀으로 참여한 사람들의 점수가 확실히 높았다. 다음에는 팀플을 믿어보는 것도 나쁘지 않을 것 같다. (팀플에 질려서 혼자 하고 싶었던 1인..)
데이콘에 하루 제출가능 횟수가 정해져 있을 줄 몰랐다. 나한테 주어진 시험횟수는 5번... 턱없이 부족했다.
다음에는 필요없는 컬럼을 골라낼 때 내 주관만으로 하지 말고, 기법과 섞으면 좋을 것 같다.
1. 필터링 (주관): ID나 상식적으로 무관한 컬럼을 1차로 제거
2. 탐색적 데이터 분석 (EDA): 상관계수 히트맵(Correlation Heatmap)이나 산점도를 그려보기
3. 특성 중요도 (모델링): 랜덤 포레스트나 XGBoost 같은 모델을 가볍게 돌려 Feature Importance를 뽑아보고, 내가 버리려 했던 컬럼의 중요도가 높게 나오는지 확인

배운점

머신러닝을 할 때 train data, test data 모두 동일하게 전처리를 해야 한다. 컬럼이 같아야 학습된 내용을 test에 적용할 수 있다.
타겟 컬럼의 비율이 불균형하다면 scale_pos_weight로 균형을 맞춰줘야 성능이 개선된다.
머신러닝은 노가다다. 직접 튜닝해가며 성능을 개선시켜야 한다. 시간이 오래걸린다. 감안하고 작업하자.
이전 수강 분반명같은 컬럼을 원핫 인코딩하면 과적합될 가능성이 있다. 이런 컬럼은 이전에 수강을 했는지 여부로 새로운 컬럼을 만들자.
단일 변수만 보는 것보다 파생변수 생성을 하는 것이 성능 개선에 큰 도움이 된다. (A + B 컬럼으로 파생변수 생성)
test data 전처리를 할 때 행 삭제를 해서는 안된다. test data의 모든 경우를 테스트하는 것이기 때문이다.
train 데이터 전처리를 할 때 6번을 미리 고려하자. 삭제보단 대체가 나을 수 있다. (결측치도 패턴으로 학습)
train 데이터에서 평균, 중앙값 등으로 결측치 대체를 했다면, test 데이터에서도 train에서 구한 값 그대로 결측치를 대체해야 한다. test 데이터에서 다시 계산을 하면 안된다!!
머신러닝 순서 :
train data 전처리
train data 학습/튜닝
train 전체 데이터로 평가
test data를 train data와 같은 방식으로 전처리
test 데이터에 모델 적용
전처리, 튜닝, 학습, 평가를 왔다갔다 하면서 성능개선을 시키는게 머신러닝이다!