데이터 분석 개요 및 기초통계

1. 데이터 분석의 필요성

기업 관점에서의 데이터 분석

경영 혁신의 핵심 도구: 데이터는 단순한 정보를 넘어 경영 활동의 자산이자 판매 가능한 가치
데이터의 진화: Data → Fact → Knowledge → Asset
Data Analytics: 데이터 기반 인사이트를 통한 "성장 기회 최대화 - 위험 발생 최소화"

데이터 분석 역량 3요소

Biz Insights (관점): 산업 전반에 대한 비즈니스 이해와 통찰력
Data (자원): 보유한 데이터 자원과 인프라
Analytic Insights (분석 기법): 통계, ML, DL 등의 분석 방법론

핵심 프로세스: 개념적 정의 → 조작적 정의 → Measuring(통계)

2. 분석 방법론

6단계 분석 프로세스

Business Understanding: 비즈니스 목표 정의, 분석 목표 정의
Data Understanding: 가설 수립, 데이터 정의
Data Preparation: 전처리, Feature Engineering
Modeling: EDA, 모델 설계 및 학습, 최적화
Evaluation: 모델 평가 = 비즈니스 평가
Deployment: 모델 배포 및 유지보수

3. 탐색적 데이터 분석 (EDA)

조작적 정의의 3단계

A. 변수 정의: 독립변수, 종속변수, 매개변수, 통제변수 구분
B. 분석 단위 설정: 개인/가족/월 단위 등 분석 대상 단위 결정
C. 척도화: 명목/서열/등간/비율 척도 설정

데이터 척도 유형

이산형/범주형

이진척도 (Binary): 합격/불합격
명목척도 (Nominal): 성별, 운동선수 등번호
순서척도 (Ordinal): 순위, 등급

연속형

구간척도 (Interval): 온도, 연도 (절대영점 없음)
비율척도 (Ratio): 몸무게, 키, 시간 (절대영점 있음)

EDA vs CDA

탐색적 데이터 분석 (EDA)

귀납적 접근, "경찰이 증거를 찾는 일"
데이터의 형태와 관계 파악
통계적 가설 설정 과정 없음

확증적 데이터 분석 (CDA)

연역적 접근, "배심원이 증거의 강도를 평가하는 일"
모집단 추정과 가설 검정
EDA 기초 위에 진행

4. 기초 통계량

중심화 (Center)

평균 (Mean): Outlier에 민감
중앙값 (Median): Outlier 영향 적음 (Robust)
최빈값 (Mode): 빈도가 가장 높은 값
이동평균 (Moving Average): 시계열 트렌드 파악

퍼짐 (Spread)

평균 관점

표준편차 (SD): 평균 중심 퍼짐 정도
변이계수 (CV): 표준편차/평균, 단위가 다른 변수 비교 가능

중앙값 관점

사분위수 (Quantile): 25%, 50%, 75% 위치값
IQR: Q3 - Q1, 데이터 밀집도 표현

핵심 개념: 편차 → 분산 (편차²) → 표준편차 (√분산)

분포/대칭

왜도 (Skewness): 분포의 비대칭 방향과 정도
- 음수 = 왼쪽 꼬리, 양수 = 오른쪽 꼬리
첨도 (Kurtosis): 분포의 뾰족한 정도
- 양수 = 뾰족, 음수 = 평평

5. 확률분포와 데이터 변환

정규분포 (Normal Distribution)

평균 μ 중심 좌우 대칭, 종 모양
N(μ, σ²)로 표기
표준정규분포: N(0, 1), Z분포

데이터 변환 기법

Z변환 (표준화)

z = (x - x̄) / s

평균 0, 표준편차 1로 변환
서로 다른 척도 비교 가능

Min-Max Scaler

z = (x - min) / (max - min)

0~1 범위로 변환

로그/제곱근 변환

한쪽으로 치우친 분포를 대칭 분포로 변환
정규분포 가정 필요 분석기법에 활용

6. 상관관계 분석

핵심 개념

공분산 (Covariance): 두 변수의 변화 방향과 양
상관계수 (Correlation): 표준화된 공분산, -1 ≤ ρ ≤ 1
- ρ = Cov(X,Y) / (σx × σy)

주의사항

선형 관계만 파악: 곡선 관계는 알 수 없음 → 산점도 필수
Outlier에 민감: 제거 후 분석 필요
교란요인 주의: 제3의 변수 존재 가능성
시간 선후 관계: 상관 ≠ 인과

"상관은 인과를 함축하지 않는다" (Correlation doesn't imply Causation)

7. 회귀분석

상관분석 vs 회귀분석

구분	상관분석	회귀분석
분석 목적	변수 간 관계 존재 여부 및 강도 파악	독립변수가 종속변수에 미치는 영향 정도 분석 및 예측
관계 해석	상관관계만 확인	인과관계 가정 하 영향력 분석
상관관계 (유무)	O (있다/없다 판단)	전제 조건으로 포함 가능
인과관계 (정도/예측)	X	O (정도 측정, 값 예측)
결과	상관계수	회귀식, 회귀계수, 예측값
결과 형태	상관계수 ( r ) (−1 ~ +1)	회귀식 ( y = \beta_0 + \beta_1 x )
값의 의미	관계의 방향(+/−) 과 강도	독립변수 1단위 변화 시 종속변수 변화량
변수 역할	변수 간 동등 (구분 없음)	독립변수 → 종속변수
방향성	없음 (대칭적)	있음 (비대칭적)
예측 기능	불가	가능
대표 활용 사례	연관성 탐색, 사전 분석	원인 분석, 수요·성과 예측

회귀분석 기본 가정 (4가지)

선형성: X-Y 관계가 직선 형태
다중공선성: 독립변수 간 상관관계 없음 (|r| < 0.6)
정규성: 잔차의 정규분포
등분산성: 잔차의 분산 일정

성능 평가

모델 설명력

R² (결정계수): SSR/SST, 0~1 (1에 가까울수록 좋음)
Adj. R²: 독립변수 수와 데이터 크기 반영

오차 평가

MSE: 평균제곱오차
RMSE: 평균제곱근오차
MAPE: 평균절대비율오차

로지스틱 회귀분석

종속변수가 범주형(이진/다항)일 때 사용
Sigmoid 함수로 0~1 확률값 산출
예: 합격/불합격, 정상/비정상 분류

핵심 메시지

"EDA는 초등학교 산수 수준이지만, 무시하면 큰 코 다친다"

분석 모형은 EDA를 통해 도출된 특징을 기반으로 한다. 데이터 특징을 찾지 못했다면 분석 모형과 결과는 신뢰하기 어렵다.

분석의 핵심 순서: EDA (탐색) → CDA (확증) → Modeling → Evaluation

추가 정리

1. 데이터 분석가의 핵심 역량

필수 마인드셋

불확실성 하에서의 판단력: 데이터를 통해 불확실한 상황에서도 합리적 판단을 내릴 수 있는 시각 필요
신뢰성 검증 능력: 분석 결과가 왜 나왔는지, 신뢰할 수 있는지 스스로 판단하고 설명할 수 있어야 함
비즈니스 중심 사고: 기술적 성능만이 아닌 "이 분석이 회사에 어느 정도까지 숫자로 기여할 수 있나?" 고민

코드 작성 원칙

무조건 리팩토링: 주석을 많이 달아두기
Consecutive하게 작성하지 말 것: 가독성 있게 구조화
참조 가능하도록: 프로젝트 진행 시 다른 팀원이 이해할 수 있게
스타일 가이드: GPT보다는 구글링으로 Python 코드 스타일 학습

2. 프로젝트 시작 전 필수 체크리스트

첫 번째 질문: "건수 많니?" (데이터량)

데이터량이 충분한가?

→ 적으면 딥러닝 X, 전통적 ML 고려

→ 많으면 샘플링 전략 수립

+) 피해야 할 프로젝트 주제

❌ 추천 시스템

→ "돈이 안 되는 모델" (추천 봐도 구매 안 함)

→ 실제 비즈니스 임팩트 증명 어려움

✅ 회사에서 고민할 법한 주제

→ 비용 절감, 매출 증대 등 정량적 효과 명확한 것

3. 데이터 전처리 포인트

Outlier 처리 시 주의사항

기준 설정의 정당화

"상위 10%를 이상치로 정의했습니다"
→ 공격 포인트: "왜 하필 10%? 11%면 안 되나?"
대응 방법:
1. 도메인 지식 기반 (업계 표준, 정책 기준)
2. 통계적 근거 (IQR, Z-score 등)
3. 비즈니스 임팩트 분석 결과

예시: Continuous Value → 범주화

매출액을 상/중/하로 나눌 때
- 상위 10% → "상" 그룹?
- 근거 필요: 사분위수, 파레토 법칙, 고객사 기준 등

4. 비즈니스 문제 해결의 본질

회사가 원하는 것

단순 모델 성능 (Accuracy 95%!) ❌

"이 모델로 얼마나 절감/증대할 수 있나?" ✅

나이브한 접근

"RMSE를 0.05 줄였습니다"
"Accuracy 92% 달성했습니다"

성숙한 접근

"재고 유지 비용을 연 3억 절감할 수 있습니다"
"불량 사전 감지로 설비 중단 시간 20% 감소 예상"

기술과 비즈니스의 균형

기술적인 것만 언급 ❌
비즈니스 임팩트만 언급 ❌
유연한 사고로 둘을 연결 ✅

+) Y(종속변수)가 있는 문제가 좋은 이유

"비즈니스에서는 보통 X와 Y가 같이 있는 문제가 많음"

이유: Y가 있어야 측정 가능

→ 프로젝트 성과를 정량화할 수 있음

예시:

불량 예측 (Y: 불량 여부)
이탈 예측 (Y: 이탈 여부)
매출 예측 (Y: 실제 매출)

5. 핵심 마인드셋

① 도메인 이해 우선

② 데이터로 검증

③ 비즈니스 임팩트로 설득

마무리: 실무 프로젝트의 진짜 가치

"모델 돌리는 고생한 내용보다 결과를 고객이 이해하기 편하게 전달하는 것"

포트폴리오 아이템 선정 기준

✅ 회사에서 한 번쯤 고민할 법한 것
✅ 비용/매출에 직접 연결되는 것
✅ Y(성과지표)가 명확한 것
❌ 주가 예측, 단순 추천 시스템

'SKALA' 카테고리의 다른 글

HTML, CSS, JavaScript (0)	2026.02.05
생성형 AI 기초 및 Prompt Engineering (0)	2026.02.03
Vector Database (0)	2026.02.02
LLM 모델 이해 및 활용(2) (0)	2026.02.02
LLM 모델 이해 및 활용(1) (1)	2026.01.28