목록분류 전체보기 (81)
kyejin0412 님의 블로그
배운점택배 TF를 하면서 그로스까지 성공하고, 중고거래팀과 힘을 합쳐서 원팀으로 일했다.항상 사용자 경험과 목소리를 중요시했다.겉필링(직감)과 데이터 기반 근거로 일했다. 1. 메이커는 불편해야 한다. 2. 직접 사용자입장을 겪어보면서 페인포인트를 찾고, 과정을 경험하자.3. 리얼월드에서 발생할 수 있는 변수들에 대응하자.4. 행안부 지도 api를 사용하기 때문에 행안부 데이터센터에 불이 났을 때 서비스가 멈춰버렸다. 이후 이중으로 대비하게 되었다.5. 페인포인트 : 사기꾼, 반택 개인정보 보호 (택배예약)6. 안심결제 + 택배예약 -> 바로구매 (사기꾼 방지, 편리성)7. 택배예약할 때 어쩔 수 없이 정보 입력 단계가 늘어나서 이탈이 여기서 늘어났던 것 같다. 이탈을 줄이기 위해 데이터를 열심히 봤었다..
IT 인프라 환경 종류개발계 = 개발 환경 (Dev Environment)운영계 = 운영 환경 (Prod Environment)분석계 = 분석 환경 (Analytics/Data Environment)예시 KPI 지표 설정 방법 1. KPI 개념KPI 지표 : 서비스에 관련된 모든 이해관계자들이 정량적으로 높이고 싶은 공통 목표. 달성하면 좋은 것들. 분석가로서 궁금한 내용이 아님!! 제너럴하고 정량적인 지표로 설정해야 함. (정성적 지표 X)지표가 늘어난다 = 서비스가 더 발전한다, 좋아진다 로 이어져야 함.KPI를 보고 업무의 우선순위도 알 수 있고, 어떤 걸 발전시켜야 하는지 알 수 있음.구체적이고 정량적이어야하고, 기간이 필요하거나 용어의 정의가 중요하다. 왜 이 KPI를 달성해야 하는지 근..
드디어... 내부캠 수료날이다.처음 시작할 땐 언제 끝날까 엄청 남았다 싶었고중간쯤에는 포기하고 싶었던 적도 있었다. 시간이 되게 안 간다고 느껴졌다.최종 프로젝트가 시작됐을 때는 마지막 한달 불태우자라는 마음으로 임했다.그렇게 오늘이 되었다! 약간 가볍게 배워가자는 마음으로 시작했는데, 열정적인 튜터님과 동료들 덕분에나도 더 진지하게 임하게 됐던 것 같다. 각자의 강점이 빛나는 분들이 많았고, 겸손하게 나의 길에 정진하자라는 생각을 하게 되었다.밍글데이 같은 작은 이벤트들 덕분에 리프레시됐던 것 같다. 취업지원도 꾸준히 받을 수 있어서 그게 너무 좋았다.다시 혼자가 된다면 엄청 막막했을텐데 소통창구가 남아있어서 다행이다.모두 서로의 인맥이 되고, 든든한 동료가 될 수 있도록 멋지게 취업했으면 좋겠다. ..
발표 피드백우리팀 피드백키워드분석에서 그치지 않고 점수로 모델 설계한게 의미가 있었다.문제정의와 전략제안까지 구조가 좋았다.실무적으로 많이 하고 있는 작업이니까 마케팅 데이터 분석할 때 도움이 될 것 같다. 면접 예상질문- 리스크를 하나의 범주로 묶지 않고, 평판 리스크/운영 리스크/품질 리스크로 나누지 않은 이유는 무엇인가요? - threshold 0.45를 최종 선택했을 때, 실제 운영 환경에서 감수하려는 오탐과 미탐의 기준은 무엇인가요? precision-recall은 threshold에 따라 달라지므로 그 기준 설명이 중요합니다. - 최종 리스크 점수의 가중치(0.5, 0.3, 0.2)는 어떤 실험이나 근거를 바탕으로 설정했나요? 확률 점수가 실제 위험도로 해석 가능한지 calibration ..
오늘은 까르띠에 게시글을 리스크/비리스크로 나누는 이진 분류 모델을 만들었다.라벨링 데이터에서 부정(0), 중립부정(1) -> 리스크(1) / 중립(2), 긍정(3) -> 비리스크(0) 로 다시 라벨링하여 학습시켰다. 데이터가 1000개 정도로 늘어나 안정적인 수치의 모델을 만들 수 있었다.머신러닝/딥러닝에서 데이터의 개수가 많을수록 좋다는 것을 체감했다. 오늘은 BERT 모델을 만들면서 배운점을 기술하고자 한다.시도한 모델 종류klue/bert-base : 한국어 성능이 안정적임 -> 결과가 더 좋았음.beomi/KcELECTRA-base : 네이버 댓글 + 커뮤니티 데이터 학습된 모델 -> 시크먼트 카페 데이터이므로 사용해봄. 식별자 컬럼 살리기타브랜드 필터링 bert 모델을 만들 때, 학습데이터에서..
브랜드 필터링 어제까지 했던 브랜드 필터링을 이어서 정리하겠다.팀원의 모델 성능이 좀더 좋아서 그거로 했는데, 약간의 오류가 생겨서 내 모델을 혼자 다시 보완해보았다. BERT 모델은 GPU를 쓰라고 만들어졌다고 들어서, 무료 GPU를 사용하기 위해 코랩으로 돌렸다.라벨링 600개 -> 700개 -> 800개로 최종 200개 추가하여 까르띠에(0), 타브랜드(1) 을 이진 분류하는 모델을 만들었다.threshold(임계값)를 기준으로 그 이상이면 1, 아니면 0으로 분류하는데, 이것으로 성능을 개선한다.클래스(이번엔 0,1) 불균형이란, 클래스별 데이터 개수의 불균형을 말하는데, 이번에 660:137 로 불균형이 있어서 class_weight로 처리했다.성능은 threshold 0.4 이하는 모두 같아서..
브랜드 필터링라벨링을 끝내고, BERT 모델을 만드는 와중에 걸림돌을 발견했다.부정, 중립부정, 중립, 긍정, 타브랜드로 라벨링을 하고 모델을 학습시키는데 타브랜드의 평가지표가 모두 0으로 나오는 것이었다.타브랜드의 데이터 개수가 11개로 너무 적어서 발생하는 문제였다. 모델이 타브랜드인지 잡아내질 못한다. 전체데이터에 적용할 경우, 타브랜드의 얘기인데 까르띠에로 판단하여 인사이트가 오염될 수 있었다.따라서 브랜드 필터링부터 다시해야하는 상황이 되었다....! 먼저 BERT로 까르띠에를 판단하는 이진 분류 모델을 만든 후, 전체 데이터에 적용하여 까르띠에 게시글만 남긴다. 그 다음,1) 리스크/비리스크로 나눈 뒤, 리스크 안에서 중립부정, 부정을 나눔2) 부정, 중립부정, 중립, 긍정 4개로 감성분석 진..
오늘은 진전은 크게 없었다.600개의 데이터를 직접 라벨링하는 작업을 했다.비정형 데이터를 우리가 정한 기준으로 지도학습을 하기 위해서는, 직접 라벨링을 해주는 작업이 필요하다.이 작업이 정말 하루 종일 걸려서 오늘은 라벨링만 하다가 끝났다... 나눠서 하면 각자의 기준이 달라 모델링을 위한 기준 라벨링 데이터가 명확하지 않아질 것을 우려하여,모두가 라벨링을 하고 서로 다른 것만 맞춰보기로 했다.따라서 우리가 정한 기준을 라벨과 같이 적어줬다. (라벨: 부정:0, 중립부정: 1, 중립: 2, 긍정: 3, 타브랜드: 4)나중에 왜 이렇게 라벨을 붙였는지 얘기하기 편하게 하기 위함이다. 비정형 데이터가 정말 오래걸리고 애매한 경우가 많다는 것을 몸소 실감했다.손이 많이 가는 작업인 만큼, 완성했을 때 애정이..
우린 감성분석으로 긍정/부정/중립부정(걱정,불안,의심 등)/중립 4가지를 나누기로 했다.이때 사용하기로 한 것이 BERT이다. BERT 감성분석 -> 중립부정에서 BERTopic으로 클러스터링 하고 대표키워드를 찾기 -> 클러스터링을 바탕으로 유형나누기유형별 시계열 분석, 댓글데이터로 확산지표 만들어서 분석 이런 식으로 할 것 같다.원래는 부정을 유형별로 나눈 뒤, 부정 확률수치와 중립부정 확률수치로 리스크 수치를 구해서 리스크인지 판단하고, 확산 정도를 확인하는 방향이었다.그런데 생각해보니, 우리 주제가 리스크 조기탐색인데 이미 이슈화된 부정 게시글이 아닌, 중립부정에서 조기탐지를 해야 하는 것 아닌가 하는 생각이 들어 팀과 튜터님께 말씀드렸다. 튜터님도 결국은 그 방향으로 가게 될 것 같다, 맞다고..
BDA의 최종과제는1. 최종보고서 제출2. 데이콘 성능 f1-score 0.42 이상 결과부터 말하면 난 성능이 0.39가 최대였어서 수료를 못할 것 같다...ㅜㅜ 어제 새벽 4시까지 했는데 너무 아쉽다.수료조건이 너무 까다로운 거 아닙니까 BDA!!수업참여, 과제 다 열심히 했어도 최종과제 모델 성능이 안 나오면 수료를 못 한다니 너무 가혹한듯....그래도 이번 공모전을 진행하면서 머신러닝에 대해 배운 점은 꽤 있는 것 같다. 이제부터 정리해보겠다. 공모전 소개https://dacon.io/competitions/official/236664/overview/description 데이콘 x BDA 제 2회 학습자 수료 예측 AI 경진대회 - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아..