kyejin0412 님의 블로그
[TIL] Week 3-5 데이터 리터러시 본문
역대급 집중 안되는 날이었다. 이번주는 내내 졸렸다....
오늘은 문제도 눈에 안 들어와서 쉬어가는 겸 데이터 리터러시 강의를 들었다. 매니저님인가 튜터님인가 쉽지만 중요한 강의라고 하셨는데 그 말이 맞았다. 그동안 배웠던 SQL과 파이썬은 우리가 정의한 문제를 어떻게 해결할 지 파악하는 도구였고, 궁극적인 목표는 문제를 해결할 액션을 제시하는 것이었다. 그것을 잘하기 위한 강의였다. 데이터 분석이 목표가 아닌 것을 명심하자!
데이터 리터러시와 관련된 책을 읽어보는 것도 큰 도움이 될 것 같다. 요즘 국어 실력을 위해 소설책을 읽고 있었는데, 데이터 책도 추가해야겠다. ^_^
[목차]
1. 데이터 리터러시 란?
2. 데이터 해석의 오류 사례
3. 데이터 분석 접근법
4. 데이터의 유형
1. 데이터 리터러시 란?
- 데이터를 읽는 능력
- 데이터를 이해하는 능력
- 데이터를 비판적으로 분석하는 능력
- 결과를 의사소통에 활용할 수 있는 능력
- -> 데이터 수집과 데이터 원천을 이해하고
- 주어진 데이터에 대한 다양한 활용법을 이해하고
- 데이터를 통한 핵심지표를 이해하는 것
- 데이터 리터러시는 올바른 질문을 던질 수 있도록 만들어준다.
- 데이터 분석을 잘하면 문제, 목적, 결론이 나올 것이다? X
- 가공을 잘하면 유용한 정보를 얻을 수 있다? X
- 분석에 실패한 이유는 방법론, 스킬의 부족 때문이다? X --> 모두 데이터 리터러시와 관련!
2. 데이터 해석의 오류 사례
1) 심슨의 역설 (Simpson's Paradox)
'부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우.

파란 그룹과 빨간 그룹은 부분적으로 상승하지만, 전체적으로는 감소한다.
2) 시각화를 활용한 왜곡
어떤 기준으로 그래프를 그리냐에 따라, 같은 데이터라도 다르게 보인다.
결과를 착각할 수 있다.

같은 데이터이지만, 그래프를 어떻게 그리냐에 따라 천차만별이다. 왼쪽 그래프에서는 임금 차이가 확연히 나지만,
가운데, 오른쪽 그래프에서는 오히려 노동자의 임금 상승이 훨씬 높거나 임금이 많게 느껴진다.
3) 샘플링 편향 (Sampling Bias)
전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생.


미국 대선 여론조사를 편향된 집단에서 하여 실제 결과와 큰 차이를 보였다.
4) 상관관계와 인과관계
- 상관관계
- 두 변수가 얼마나 상호 의존적인가를 파악하는 것을 의미
- 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따른다.
- 인과관계
- 실제로 하나의 요인에 의해 다른 요인의 수치가 변하는 형태
- 원인과 결과가 명확한 것.
- 상관관계 = 인과관계가 아니다!!!
- 양쪽 모두 활용하여 합리적인 의사판단을 하자.
3. 데이터 분석 접근법
문제 및 가설 정의 (생각 단계) -> 데이터 분석 (작업 단계) -> 결과 해석 및 결론 도출 (생각 단계)
생각 단계에서 데이터 리터러시가 필요하다.
데이터 분석이 목적이 되지 않도록 '왜 이 분석을 하고 있는가?' '내가 이걸 통해 얻고자 하는 건 뭔가?' 를 계속 생각하자.
- 문제 정의 (데이터 분석의 초석, 방향)
- 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
- 결과를 공유하고자 하는 사람이 누구인지 정의하기
- 결과를 통해 원하는 변화를 생각하기
- 경영자의 입장에서 생각해보기
- 문제 정의 방법론
- MECE (Mutually Exclusive, Collectively Exhaustive)
: 문제를 상화 배타적이면서, 전체적으로 포괄적인 구성요소로 나누는 것 - 로직 트리 (logic tree)
: MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는 데 사용.
상위 문제로부터 시작하여 하위 문제로 계층적 접근.
- MECE (Mutually Exclusive, Collectively Exhaustive)


- 지표 설정
- 지표란?
1) 특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준.
2) 목표 달성도를 평가하고 전략적 결정에 필요한 핵심 정보를 제공.
3) 정의한 문제를 정확하게 파악하기 위해 필요 - 문제 정의 vs 지표 설정
문제 정의 : 어떤 문제를 풀고자 하는가? 둘 이상의 해석이 나오지 않도록 구체적으로 표현하고 정의했는가?
지표 설정 : 어떤 결과를 기대하는가? 정의한 문제를 확인하는데 적합한 요소인가? - 주요 지표
1) Active User (활성 유저) : 어떤 기준을 정해서 우리가 설정하는 것. (진입 고객? 결제 고객? 등등)
2) Retention Ratio (재방문율) : N-day 리텐션, Unbounded 리텐션, Bracket 리텐션이 있음
3) Funnel (퍼널) : 잠재고객 유입 - 활성화 - 재방문 - 수익 - 추천 (AARRR)
4) LTV (Life Time Value, 고객 평생 가치) : 한 유저가 평생 주는 이익
5) 북극성 지표 : 서비스가 유저에게 주는 핵심 가치를 나타낸 것. 기업에겐 방향성 제시
- 지표란?
- 결론 도출
- 결과 vs 결론:
결과는 작업(데이터 처리, 분석, 모델링) 후에 얻어진 구체적인 데이터의 출력. "계산과 분석의 결과물"
결론은 분석 결과를 바탕으로 이끌어낸 "의미"나 "통찰". 데이터에 기반한 해석, 추론, 권고사항 등을 포함 - 결론 도출을 할 때 주관적인 해석이 들어가지 않도록 주의. 데이터에 기반한 해석!
- 결론을 잘 정리하는 법
- 단순하고 쉽게 전달 (액션 아이템 전달)
- 상대의 흥미 유발
- 대상자 관점에서의 접근 (상대가 잘 이해할 수 있게 자료, 시각화 자료 첨부)
- 화려한 그래프보다 직관적인 선, 막대 그래프 주로 활용, 범례와 단위 필수
- 결론 보고서에는?
전체 내용을 한 문장으로 요약
해당 보고서의 메인 주제, 보고서를 쓴 이유, 원하는 변화
문제 정의 단계
핵심 내용 전개
결론 및 액션 아이템
- 결과 vs 결론:
4. 데이터의 유형
- 정성적 데이터 (Qualitative Data)
- 비수치적인 정보
- 텍스트, 비디오, 오디오 형태
- 사람의 경험, 관점, 태도와 같은 주관적인 요소 포함
- 구조화되어 있지 않고, 구조화하기 어려움
- 새로운 현상이나 개념에 대한 이해를 심화하는 데 사용
- 정량적 데이터 (Quantitative Data)
- 수치적인 정보
- 데이터가 숫자 형태여서 통계적 분석에 용이
- 객관적임
- 지표로 만들기에 용이
- 설문조사, 실험, 인구통계, 지표 분석 등에 사용

'내일배움캠프-데이터분석' 카테고리의 다른 글
| [TIL] Week 4-2 파이썬 세트, 컴프리헨션, 예외처리 (0) | 2025.11.11 |
|---|---|
| [TIL] Week 4-1 파이썬 복습 (1) | 2025.11.10 |
| [TIL] Week 3-4 파이썬 라이브세션 - 함수 (0) | 2025.11.06 |
| [TIL] Week 3-3 파이썬 리스트, 튜플, 딕셔너리 비교정리 (0) | 2025.11.05 |
| [TIL] Week 3-2 SQL 라이브세션 - 윈도우 함수, WITH, SUBSTRING_INDEX(), REVERSE(), 날짜 함수 / 파이썬 함수 (0) | 2025.11.04 |