kyejin0412 님의 블로그

Week 18-4 최종프로젝트 - 데이터 전처리 본문

내일배움캠프-데이터분석

Week 18-4 최종프로젝트 - 데이터 전처리

kyejin0412 2026. 2. 19. 21:32

 

설 연휴가 끝나고 다시 일상으로 돌아왔다.

긴 연휴가 끝나니 오늘이 월요일 같다. 그동안 마음을 다잡고 와봤다. 남은 3주동안 진짜 열심히 해서 많이 얻어가자고!!

 


 

데이터 전처리

1. 까르띠에 관련 게시글만 남기기

  • 먼저, 포괄적이고 확실한 단어들로 1차 필터링 한다.
    '까르띠에', '까르', '깔띠', '깔띠에', '까띠', '까띠에', '빨간박스', 'cartier',
    '팬더', '앵끌루', '못반지', '못팔찌', '다무르', '트리니티', '베누아', '산토스', '발롱블루', '러브링', '저스트앵'
  • 그 다음, 까르띠에가 아니라고 분류된 게시글 중에서, 내가 생각하지 못했을 키워드를 찾기 위해 언급 빈도가 많은 단어들을 살펴본다. 까르띠에 관련 단어를 발견하면 위 리스트에 추가한다.
    '탱머', '러브', '러브팔찌', '탱크', '탱크머스트', '클래쉬', '클래쉬드', '클래쉬드링', '탱크 머스트', '탱크루이'
  • 마지막으로, 까르띠에가 아니라고 분류된 게시글의 댓글 중에서 25% 이상 까르띠에 관련 단어가 언급되었다면 까르띠에 관련 게시글로 옮긴다.
    5~25% 까지 5%씩 증가시키면서 댓글 내용을 확인했을 때, 유의미한 내용이 나오는 시점이 대략 25%였다.

2. 이상치/결측치 처리

  • 이상치 : 댓글이 없는데 댓글 수가 1이라고 되어있는 데이터를 0으로 수정했다.
  • 결측치 : 댓글이 없는 경우 ''으로 치환했다.

3. 댓글 수 정합성 검증

  • 댓글이 '|'로 나뉘어져 있었다. 따라서 '|'의 개수 + 1을 하면 전체 댓글 수가 나올 것이다.
  • 직접 계산한 댓글 수와 데이터의 댓글 수가 다른 경우를 살펴보았다.
  • 대부분의 다른 경우 : 삭제된 댓글이 있을 경우 데이터의 댓글 수에 카운트 되지 않았다.
  • 삭제된 댓글이 없는데 다른 경우 : '|' 기호가 댓글 내용에 있는 경우였다. 신경쓰지 않아도 된다.
  • 추가로, 부정적 이슈와 관련있는지 확인하기 위해, 삭제된 댓글 개수와 비율 컬럼을 추가했다.
  • 삭제된 댓글이 많은 글이라면 부정적 이슈와 관련된 글이어서 자동 삭제되었을 가능성을 생각해 볼 수 있다.
  • 마지막으로, 삭제된 댓글은 ''로 치환했다.

4. 타입 변환

  • released_at : 날짜 데이터인데 문자열로 되어있음. datetime으로 타입 변환