SKALA / / 2026. 1. 23. 17:30

데이터 분석 개요 및 기초통계

1. 데이터 분석의 필요성

기업 관점에서의 데이터 분석 

  • 경영 혁신의 핵심 도구: 데이터는 단순한 정보를 넘어 경영 활동의 자산이자 판매 가능한 가치
  • 데이터의 진화: Data → Fact → Knowledge → Asset
  • Data Analytics: 데이터 기반 인사이트를 통한 "성장 기회 최대화 - 위험 발생 최소화"

 

데이터 분석 역량 3요소

  1. Biz Insights (관점): 산업 전반에 대한 비즈니스 이해와 통찰력
  2. Data (자원): 보유한 데이터 자원과 인프라
  3. Analytic Insights (분석 기법): 통계, ML, DL 등의 분석 방법론

핵심 프로세스: 개념적 정의 → 조작적 정의 → Measuring(통계)


2. 분석 방법론

6단계 분석 프로세스

  1. Business Understanding: 비즈니스 목표 정의, 분석 목표 정의
  2. Data Understanding: 가설 수립, 데이터 정의
  3. Data Preparation: 전처리, Feature Engineering
  4. Modeling: EDA, 모델 설계 및 학습, 최적화
  5. Evaluation: 모델 평가 = 비즈니스 평가
  6. Deployment: 모델 배포 및 유지보수

3. 탐색적 데이터 분석 (EDA)

조작적 정의의 3단계

  • A. 변수 정의: 독립변수, 종속변수, 매개변수, 통제변수 구분
  • B. 분석 단위 설정: 개인/가족/월 단위 등 분석 대상 단위 결정
  • C. 척도화: 명목/서열/등간/비율 척도 설정

 

데이터 척도 유형

이산형/범주형

  • 이진척도 (Binary): 합격/불합격
  • 명목척도 (Nominal): 성별, 운동선수 등번호
  • 순서척도 (Ordinal): 순위, 등급

연속형

  • 구간척도 (Interval): 온도, 연도 (절대영점 없음)
  • 비율척도 (Ratio): 몸무게, 키, 시간 (절대영점 있음)

 

EDA vs CDA

탐색적 데이터 분석 (EDA)

  • 귀납적 접근, "경찰이 증거를 찾는 일"
  • 데이터의 형태와 관계 파악
  • 통계적 가설 설정 과정 없음

확증적 데이터 분석 (CDA)

  • 연역적 접근, "배심원이 증거의 강도를 평가하는 일"
  • 모집단 추정과 가설 검정
  • EDA 기초 위에 진행

4. 기초 통계량

중심화 (Center)

  • 평균 (Mean): Outlier에 민감
  • 중앙값 (Median): Outlier 영향 적음 (Robust)
  • 최빈값 (Mode): 빈도가 가장 높은 값
  • 이동평균 (Moving Average): 시계열 트렌드 파악

 

퍼짐 (Spread)

평균 관점

  • 표준편차 (SD): 평균 중심 퍼짐 정도
  • 변이계수 (CV): 표준편차/평균, 단위가 다른 변수 비교 가능

중앙값 관점

  • 사분위수 (Quantile): 25%, 50%, 75% 위치값
  • IQR: Q3 - Q1, 데이터 밀집도 표현

핵심 개념: 편차 → 분산 (편차²) → 표준편차 (√분산)

 

분포/대칭

  • 왜도 (Skewness): 분포의 비대칭 방향과 정도
    • 음수 = 왼쪽 꼬리, 양수 = 오른쪽 꼬리
  • 첨도 (Kurtosis): 분포의 뾰족한 정도
    • 양수 = 뾰족, 음수 = 평평

5. 확률분포와 데이터 변환

정규분포 (Normal Distribution)

  • 평균 μ 중심 좌우 대칭, 종 모양
  • N(μ, σ²)로 표기
  • 표준정규분포: N(0, 1), Z분포

 

데이터 변환 기법

Z변환 (표준화)

z = (x - x̄) / s
  • 평균 0, 표준편차 1로 변환
  • 서로 다른 척도 비교 가능

Min-Max Scaler

z = (x - min) / (max - min)
  • 0~1 범위로 변환

로그/제곱근 변환

  • 한쪽으로 치우친 분포를 대칭 분포로 변환
  • 정규분포 가정 필요 분석기법에 활용

6. 상관관계 분석

핵심 개념

  • 공분산 (Covariance): 두 변수의 변화 방향과 양
  • 상관계수 (Correlation): 표준화된 공분산, -1 ≤ ρ ≤ 1
    • ρ = Cov(X,Y) / (σx × σy)

주의사항

  1. 선형 관계만 파악: 곡선 관계는 알 수 없음 → 산점도 필수
  2. Outlier에 민감: 제거 후 분석 필요
  3. 교란요인 주의: 제3의 변수 존재 가능성
  4. 시간 선후 관계: 상관 ≠ 인과

"상관은 인과를 함축하지 않는다" (Correlation doesn't imply Causation)


7. 회귀분석

상관분석 vs 회귀분석

구분 상관분석 회귀분석
분석 목적 변수 간 관계 존재 여부 및 강도 파악 독립변수가 종속변수에 미치는 영향 정도 분석 및 예측
관계 해석 상관관계만 확인 인과관계 가정 하 영향력 분석
상관관계 (유무) O (있다/없다 판단) 전제 조건으로 포함 가능
인과관계 (정도/예측) X O (정도 측정, 값 예측)
결과 상관계수 회귀식, 회귀계수, 예측값
결과 형태 상관계수 ( r ) (−1 ~ +1) 회귀식 ( y = \beta_0 + \beta_1 x )
값의 의미 관계의 방향(+/−)강도 독립변수 1단위 변화 시 종속변수 변화량
변수 역할 변수 간 동등 (구분 없음) 독립변수 → 종속변수
방향성 없음 (대칭적) 있음 (비대칭적)
예측 기능 불가 가능
대표 활용 사례 연관성 탐색, 사전 분석 원인 분석, 수요·성과 예측

 

회귀분석 기본 가정 (4가지)

  1. 선형성: X-Y 관계가 직선 형태
  2. 다중공선성: 독립변수 간 상관관계 없음 (|r| < 0.6)
  3. 정규성: 잔차의 정규분포
  4. 등분산성: 잔차의 분산 일정

 

성능 평가

모델 설명력

  • R² (결정계수): SSR/SST, 0~1 (1에 가까울수록 좋음)
  • Adj. R²: 독립변수 수와 데이터 크기 반영

오차 평가

  • MSE: 평균제곱오차
  • RMSE: 평균제곱근오차
  • MAPE: 평균절대비율오차

 

로지스틱 회귀분석

  • 종속변수가 범주형(이진/다항)일 때 사용
  • Sigmoid 함수로 0~1 확률값 산출
  • 예: 합격/불합격, 정상/비정상 분류

핵심 메시지

"EDA는 초등학교 산수 수준이지만, 무시하면 큰 코 다친다"

분석 모형은 EDA를 통해 도출된 특징을 기반으로 한다. 데이터 특징을 찾지 못했다면 분석 모형과 결과는 신뢰하기 어렵다.

분석의 핵심 순서: EDA (탐색) → CDA (확증) → Modeling → Evaluation

 


추가 정리 

1. 데이터 분석가의 핵심 역량

필수 마인드셋

  • 불확실성 하에서의 판단력: 데이터를 통해 불확실한 상황에서도 합리적 판단을 내릴 수 있는 시각 필요
  • 신뢰성 검증 능력: 분석 결과가 왜 나왔는지, 신뢰할 수 있는지 스스로 판단하고 설명할 수 있어야 함
  • 비즈니스 중심 사고: 기술적 성능만이 아닌 "이 분석이 회사에 어느 정도까지 숫자로 기여할 수 있나?" 고민

코드 작성 원칙

  • 무조건 리팩토링: 주석을 많이 달아두기
  • Consecutive하게 작성하지 말 것: 가독성 있게 구조화
  • 참조 가능하도록: 프로젝트 진행 시 다른 팀원이 이해할 수 있게
  • 스타일 가이드: GPT보다는 구글링으로 Python 코드 스타일 학습

 

2. 프로젝트 시작 전 필수 체크리스트

첫 번째 질문: "건수 많니?" (데이터량)

데이터량이 충분한가?

적으면 딥러닝 X, 전통적 ML 고려

→  많으면 샘플링 전략 수립

 

+) 피해야 할 프로젝트 주제

❌ 추천 시스템

→  "돈이 안 되는 모델" (추천 봐도 구매 안 함)

→  실제 비즈니스 임팩트 증명 어려움

회사에서 고민할 법한 주제

 비용 절감, 매출 증대 등 정량적 효과 명확한 것

 

3. 데이터 전처리  포인트

Outlier 처리 시 주의사항

기준 설정의 정당화

"상위 10%를 이상치로 정의했습니다"
→ 공격 포인트: "왜 하필 10%? 11%면 안 되나?"
대응 방법:
1. 도메인 지식 기반 (업계 표준, 정책 기준)
2. 통계적 근거 (IQR, Z-score 등)
3. 비즈니스 임팩트 분석 결과

 

예시: Continuous Value → 범주화

매출액을 상/중/하로 나눌 때
- 상위 10% → "상" 그룹?
근거 필요: 사분위수, 파레토 법칙, 고객사 기준 등
 

4. 비즈니스 문제 해결의 본질

회사가 원하는 것

단순 모델 성능 (Accuracy 95%!) ❌

"이 모델로 얼마나 절감/증대할 수 있나?" ✅

 

나이브한 접근

  • "RMSE를 0.05 줄였습니다"
  • "Accuracy 92% 달성했습니다"

성숙한 접근

  • "재고 유지 비용을 연 3억 절감할 수 있습니다"
  • "불량 사전 감지로 설비 중단 시간 20% 감소 예상"
 

기술과 비즈니스의 균형

  • 기술적인 것 언급 ❌
  • 비즈니스 임팩트 언급 ❌
  • 유연한 사고로 둘을 연결

 

+) Y(종속변수)가 있는 문제가 좋은 이유

"비즈니스에서는 보통 X와 Y가 같이 있는 문제가 많음"

이유: Y가 있어야 측정 가능

→ 프로젝트 성과를 정량화할 수 있음

예시:
  • 불량 예측 (Y: 불량 여부)
  • 이탈 예측 (Y: 이탈 여부) 
  • 매출 예측 (Y: 실제 매출)
 

5. 핵심 마인드셋 

① 도메인 이해 우선

② 데이터로 검증

③ 비즈니스 임팩트로 설득

 

마무리: 실무 프로젝트의 진짜 가치

"모델 돌리는 고생한 내용보다 결과를 고객이 이해하기 편하게 전달하는 것"

 

포트폴리오 아이템 선정 기준

  • ✅ 회사에서 한 번쯤 고민할 법한 것
  • ✅ 비용/매출에 직접 연결되는 것
  • ✅ Y(성과지표)가 명확한 것
  • ❌ 주가 예측, 단순 추천 시스템

'SKALA' 카테고리의 다른 글

HTML, CSS, JavaScript  (0) 2026.02.05
생성형 AI 기초 및 Prompt Engineering  (0) 2026.02.03
Vector Database  (0) 2026.02.02
LLM 모델 이해 및 활용(2)  (0) 2026.02.02
LLM 모델 이해 및 활용(1)  (1) 2026.01.28
  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유