1. 데이터 분석의 필요성
기업 관점에서의 데이터 분석
- 경영 혁신의 핵심 도구: 데이터는 단순한 정보를 넘어 경영 활동의 자산이자 판매 가능한 가치
- 데이터의 진화: Data → Fact → Knowledge → Asset
- Data Analytics: 데이터 기반 인사이트를 통한 "성장 기회 최대화 - 위험 발생 최소화"
데이터 분석 역량 3요소
- Biz Insights (관점): 산업 전반에 대한 비즈니스 이해와 통찰력
- Data (자원): 보유한 데이터 자원과 인프라
- Analytic Insights (분석 기법): 통계, ML, DL 등의 분석 방법론
핵심 프로세스: 개념적 정의 → 조작적 정의 → Measuring(통계)
2. 분석 방법론
6단계 분석 프로세스
- Business Understanding: 비즈니스 목표 정의, 분석 목표 정의
- Data Understanding: 가설 수립, 데이터 정의
- Data Preparation: 전처리, Feature Engineering
- Modeling: EDA, 모델 설계 및 학습, 최적화
- Evaluation: 모델 평가 = 비즈니스 평가
- Deployment: 모델 배포 및 유지보수
3. 탐색적 데이터 분석 (EDA)
조작적 정의의 3단계
- A. 변수 정의: 독립변수, 종속변수, 매개변수, 통제변수 구분
- B. 분석 단위 설정: 개인/가족/월 단위 등 분석 대상 단위 결정
- C. 척도화: 명목/서열/등간/비율 척도 설정
데이터 척도 유형
이산형/범주형
- 이진척도 (Binary): 합격/불합격
- 명목척도 (Nominal): 성별, 운동선수 등번호
- 순서척도 (Ordinal): 순위, 등급
연속형
- 구간척도 (Interval): 온도, 연도 (절대영점 없음)
- 비율척도 (Ratio): 몸무게, 키, 시간 (절대영점 있음)
EDA vs CDA
탐색적 데이터 분석 (EDA)
- 귀납적 접근, "경찰이 증거를 찾는 일"
- 데이터의 형태와 관계 파악
- 통계적 가설 설정 과정 없음
확증적 데이터 분석 (CDA)
- 연역적 접근, "배심원이 증거의 강도를 평가하는 일"
- 모집단 추정과 가설 검정
- EDA 기초 위에 진행
4. 기초 통계량
중심화 (Center)
- 평균 (Mean): Outlier에 민감
- 중앙값 (Median): Outlier 영향 적음 (Robust)
- 최빈값 (Mode): 빈도가 가장 높은 값
- 이동평균 (Moving Average): 시계열 트렌드 파악
퍼짐 (Spread)
평균 관점
- 표준편차 (SD): 평균 중심 퍼짐 정도
- 변이계수 (CV): 표준편차/평균, 단위가 다른 변수 비교 가능
중앙값 관점
- 사분위수 (Quantile): 25%, 50%, 75% 위치값
- IQR: Q3 - Q1, 데이터 밀집도 표현
핵심 개념: 편차 → 분산 (편차²) → 표준편차 (√분산)
분포/대칭
- 왜도 (Skewness): 분포의 비대칭 방향과 정도
- 음수 = 왼쪽 꼬리, 양수 = 오른쪽 꼬리
- 첨도 (Kurtosis): 분포의 뾰족한 정도
- 양수 = 뾰족, 음수 = 평평
5. 확률분포와 데이터 변환
정규분포 (Normal Distribution)
- 평균 μ 중심 좌우 대칭, 종 모양
- N(μ, σ²)로 표기
- 표준정규분포: N(0, 1), Z분포
데이터 변환 기법
Z변환 (표준화)
z = (x - x̄) / s
- 평균 0, 표준편차 1로 변환
- 서로 다른 척도 비교 가능
Min-Max Scaler
z = (x - min) / (max - min)
- 0~1 범위로 변환
로그/제곱근 변환
- 한쪽으로 치우친 분포를 대칭 분포로 변환
- 정규분포 가정 필요 분석기법에 활용
6. 상관관계 분석
핵심 개념
- 공분산 (Covariance): 두 변수의 변화 방향과 양
- 상관계수 (Correlation): 표준화된 공분산, -1 ≤ ρ ≤ 1
- ρ = Cov(X,Y) / (σx × σy)
주의사항
- 선형 관계만 파악: 곡선 관계는 알 수 없음 → 산점도 필수
- Outlier에 민감: 제거 후 분석 필요
- 교란요인 주의: 제3의 변수 존재 가능성
- 시간 선후 관계: 상관 ≠ 인과
"상관은 인과를 함축하지 않는다" (Correlation doesn't imply Causation)
7. 회귀분석
상관분석 vs 회귀분석
| 구분 | 상관분석 | 회귀분석 |
| 분석 목적 | 변수 간 관계 존재 여부 및 강도 파악 | 독립변수가 종속변수에 미치는 영향 정도 분석 및 예측 |
| 관계 해석 | 상관관계만 확인 | 인과관계 가정 하 영향력 분석 |
| 상관관계 (유무) | O (있다/없다 판단) | 전제 조건으로 포함 가능 |
| 인과관계 (정도/예측) | X | O (정도 측정, 값 예측) |
| 결과 | 상관계수 | 회귀식, 회귀계수, 예측값 |
| 결과 형태 | 상관계수 ( r ) (−1 ~ +1) | 회귀식 ( y = \beta_0 + \beta_1 x ) |
| 값의 의미 | 관계의 방향(+/−) 과 강도 | 독립변수 1단위 변화 시 종속변수 변화량 |
| 변수 역할 | 변수 간 동등 (구분 없음) | 독립변수 → 종속변수 |
| 방향성 | 없음 (대칭적) | 있음 (비대칭적) |
| 예측 기능 | 불가 | 가능 |
| 대표 활용 사례 | 연관성 탐색, 사전 분석 | 원인 분석, 수요·성과 예측 |
회귀분석 기본 가정 (4가지)
- 선형성: X-Y 관계가 직선 형태
- 다중공선성: 독립변수 간 상관관계 없음 (|r| < 0.6)
- 정규성: 잔차의 정규분포
- 등분산성: 잔차의 분산 일정
성능 평가
모델 설명력
- R² (결정계수): SSR/SST, 0~1 (1에 가까울수록 좋음)
- Adj. R²: 독립변수 수와 데이터 크기 반영
오차 평가
- MSE: 평균제곱오차
- RMSE: 평균제곱근오차
- MAPE: 평균절대비율오차
로지스틱 회귀분석
- 종속변수가 범주형(이진/다항)일 때 사용
- Sigmoid 함수로 0~1 확률값 산출
- 예: 합격/불합격, 정상/비정상 분류
핵심 메시지
"EDA는 초등학교 산수 수준이지만, 무시하면 큰 코 다친다"
분석 모형은 EDA를 통해 도출된 특징을 기반으로 한다. 데이터 특징을 찾지 못했다면 분석 모형과 결과는 신뢰하기 어렵다.
분석의 핵심 순서: EDA (탐색) → CDA (확증) → Modeling → Evaluation
추가 정리
1. 데이터 분석가의 핵심 역량
필수 마인드셋
- 불확실성 하에서의 판단력: 데이터를 통해 불확실한 상황에서도 합리적 판단을 내릴 수 있는 시각 필요
- 신뢰성 검증 능력: 분석 결과가 왜 나왔는지, 신뢰할 수 있는지 스스로 판단하고 설명할 수 있어야 함
- 비즈니스 중심 사고: 기술적 성능만이 아닌 "이 분석이 회사에 어느 정도까지 숫자로 기여할 수 있나?" 고민
코드 작성 원칙
- 무조건 리팩토링: 주석을 많이 달아두기
- Consecutive하게 작성하지 말 것: 가독성 있게 구조화
- 참조 가능하도록: 프로젝트 진행 시 다른 팀원이 이해할 수 있게
- 스타일 가이드: GPT보다는 구글링으로 Python 코드 스타일 학습
2. 프로젝트 시작 전 필수 체크리스트
첫 번째 질문: "건수 많니?" (데이터량)
데이터량이 충분한가?
→ 적으면 딥러닝 X, 전통적 ML 고려
→ 많으면 샘플링 전략 수립
+) 피해야 할 프로젝트 주제
❌ 추천 시스템
→ "돈이 안 되는 모델" (추천 봐도 구매 안 함)
→ 실제 비즈니스 임팩트 증명 어려움
✅ 회사에서 고민할 법한 주제
→ 비용 절감, 매출 증대 등 정량적 효과 명확한 것
3. 데이터 전처리 포인트
Outlier 처리 시 주의사항
기준 설정의 정당화
"상위 10%를 이상치로 정의했습니다"
→ 공격 포인트: "왜 하필 10%? 11%면 안 되나?"
대응 방법:
1. 도메인 지식 기반 (업계 표준, 정책 기준)
2. 통계적 근거 (IQR, Z-score 등)
3. 비즈니스 임팩트 분석 결과
예시: Continuous Value → 범주화
| 매출액을 상/중/하로 나눌 때 - 상위 10% → "상" 그룹? - 근거 필요: 사분위수, 파레토 법칙, 고객사 기준 등 |
4. 비즈니스 문제 해결의 본질
회사가 원하는 것
단순 모델 성능 (Accuracy 95%!) ❌
"이 모델로 얼마나 절감/증대할 수 있나?" ✅
나이브한 접근
- "RMSE를 0.05 줄였습니다"
- "Accuracy 92% 달성했습니다"
성숙한 접근
- "재고 유지 비용을 연 3억 절감할 수 있습니다"
- "불량 사전 감지로 설비 중단 시간 20% 감소 예상"
기술과 비즈니스의 균형
- 기술적인 것만 언급 ❌
- 비즈니스 임팩트만 언급 ❌
- 유연한 사고로 둘을 연결 ✅
+) Y(종속변수)가 있는 문제가 좋은 이유
"비즈니스에서는 보통 X와 Y가 같이 있는 문제가 많음"
이유: Y가 있어야 측정 가능
→ 프로젝트 성과를 정량화할 수 있음
- 불량 예측 (Y: 불량 여부)
- 이탈 예측 (Y: 이탈 여부)
- 매출 예측 (Y: 실제 매출)
5. 핵심 마인드셋
① 도메인 이해 우선
② 데이터로 검증
③ 비즈니스 임팩트로 설득
마무리: 실무 프로젝트의 진짜 가치
"모델 돌리는 고생한 내용보다 결과를 고객이 이해하기 편하게 전달하는 것"
포트폴리오 아이템 선정 기준
- ✅ 회사에서 한 번쯤 고민할 법한 것
- ✅ 비용/매출에 직접 연결되는 것
- ✅ Y(성과지표)가 명확한 것
- ❌ 주가 예측, 단순 추천 시스템
'SKALA' 카테고리의 다른 글
| HTML, CSS, JavaScript (0) | 2026.02.05 |
|---|---|
| 생성형 AI 기초 및 Prompt Engineering (0) | 2026.02.03 |
| Vector Database (0) | 2026.02.02 |
| LLM 모델 이해 및 활용(2) (0) | 2026.02.02 |
| LLM 모델 이해 및 활용(1) (1) | 2026.01.28 |

