SKALA / / 2026. 1. 28. 14:15

LLM 모델 이해 및 활용(1)

Executive Summary: 소프트웨어 개발 방식의 진화

패러다임 변화

전통적 개발: 함수를 만든다
AI 소프트웨어: 모델을 만든다
 

3단계 진화

  1. Software 1.0 (전통적 프로그래밍)
    • 인간이 직접 모든 규칙을 정의
    • 요구사항을 함수로 구현
  2. Software 2.0 (ML/DL)
    • 데이터 기반으로 모델 학습
    • 컴퓨터가 패턴을 찾아 함수 생성
  3. Software 3.0 (LLM/Generative AI)
    • 인간 언어로 컴퓨터와 소통
    • Multi-Agent로 팀워크 구현

1. LLM(Large Language Model)이란?

 

"방대한 텍스트 데이터로 훈련된 거대 언어 모델로, 인간 언어를 이해하고 생성할 수 있는 AI 시스템"

 

핵심 특징

 

  • "거대"의 의미: 파라미터와 학습 데이터 모두 거대
  • 작동 원리: 맥락(Context)을 기반으로 다음 단어를 확률적으로 예측
  • Decoder 중심: 주어진 문장을 토대로 이후 문장 생성

2. LLM의 태생적 한계와 해결책

환각(Hallucination) 현상

  • 문제: 맥락 예측 방식이라 사실이 아닌 내용 생성 가능
  • 원인: 확률 기반 다음 단어 예측 → "확률론적 앵무새"
 

RAG (Retrieval-Augmented Generation)

검색 증강 생성으로 한계 극복  

  • 전통 LLM: User Question → LLM → 맥락 예측? (환각 위험)
  • RAG 방식: User Question → Vector DB 검색 → 관련 정보 + Question → LLM

 

Vector DB

  • 사용자 데이터를 벡터로 변환하여 저장
  • 질의와 관련된 정보를 검색해 프롬프트에 포함
  • 2022년 이후 LLM의 가장 대표적인 애플리케이션

3. Transformer: LLM 시대의 일등 공신

혁신적 구조 (2017년 Google 논문) - "Attention is All You Need"

 

Encoder-Decoder 구조

  • Encoder: 입력 문장의 의미를 벡터로 추출
  • Decoder: 벡터를 해석하여 목표 문장 생성

Self-Attention 메커니즘

핵심 질문: "이 문장에서 이 단어는 어떤 의미인가?"

예: "나는 밥을 먹었다"
- "나는" = "나는 밥을 먹었다"에서의 "나는"
- "밥을" = "나는 밥을 먹었다"에서의 "밥을"
 

QKV (Query, Key, Value)

Query: 해당 단어가 다른 단어와 얼마나 연관되는지 묻는 값
Key: 각 단어의 의미를 나타내는 값 (자기소개)
Value: 해당 단어의 실제 의미

예: "The animal didn't cross the street because it was too tired."
Q: <it>은 무엇을 가리키나요?
K: 나는 'animal'이야 / 나는 'street'이야
V: 유사도 계산 → <animal> 가중치 높음!
 

Multi-Head Attention

  • 여러 관점에서 동시에 질문
  • 더 정확한 문맥 이해 가능

 

Positional Encoding

문제: "위에서 아래" vs "아래에서 위" 구별 불가
해결: 단어 임베딩 + 위치 인코딩 벡터

 

4. BERT vs GPT

BERT (2018)

Bidirectional Encoder Representations from Transformers

구조: Transformer의 Encoder 사용
방향: 양방향 (Bidirectional)
목적: 문장 이해

핵심 기능

  • Masked Language Model: 문장 일부를 마스킹하고 예측
  •   예: "The animal didn't [MASK] the street"
  • 양방향 문맥 이해: 앞뒤 모든 단어 고려
 

활용

  • 문서 분류
  • 질문 응답
  • 감정 분석
  • Pre-training + Fine-tuning 구조

 

GPT (2018~)

Generative Pre-trained Transformer

구조: Transformer의 Decoder 사용
방향: 단방향 (Unidirectional)
목적: 텍스트 생성 (Autoregressive)

Autoregressive Model

  • 이전 값을 기반으로 다음 값 예측
  • Masked Multi-Head Attention: 미래 시점 토큰 마스킹

버전별 진화

모델 출시 연도 파라미터 수 Context 길이 주요 특징
GPT-1 2018 약 1.17억 수백 토큰 최초의 Transformer 기반 단방향 텍스트 생성 모델
GPT-2 2019 약 15억 수천 토큰 긴 문맥 처리 가능, 자연스러운 장문 생성
GPT-3 2020 약 1,750억 4,096 토큰 Few-Shot 학습 개념 정립, 범용 언어 모델
GPT-4 2023 미공개 최대 128,000 토큰 멀티모달 지원(텍스트·이미지), 추론·정확도 대폭 향상

 

Context Window 비교

LSTM: 512 토큰
BERT: 512 토큰
GPT-3: 2,048 토큰
GPT-3.5: 4,096 토큰
GPT-4: 32,768 토큰
Claude-100K: 100,000 토큰
Gemini: 1M~2M 토큰

※ 한국어 보험약관 200페이지 = 약 20만 토큰

5. 주요 LLM 서비스

① Closed-Source LLMs

모델 제공사 Context 길이 주요 특징
GPT OpenAI 128k 코드 인터프리터, DALL·E 3, GPTs, 고성능 이미지·음성 멀티모달
Claude Anthropic 200k Artifact 기능 (SVG, JS, HTML 등 구조화된 산출물 생성)
Gemini Google 1M ~ 2M 초장문 컨텍스트 처리, 우수한 멀티모달 성능
Grok xAI 128k 제한 없는 이미지 생성(Flux), 실시간성 강조

 

② Open-Weight LLMs

모델 세부 버전 파라미터 규모 특징
Meta Llama 3.1 8B / 70B / 405B 범용 고성능, 대규모 파라미터
  3.2 1B / 3B / 11B / 90B Vision 지원, 경량~대형 라인업
Alibaba Qwen Qwen Series 0.5B ~ 72B Coder / Math 특화 모델 제공
Google Gemma Gemma 2 2B / 9B / 27B 경량화 중심, Google 생태계 친화
Microsoft Phi Phi-3 3.8B / 7.4B / 14B 소형 모델 대비 높은 추론 성능

 

③ sLLM (Small LLM)

구분 내용
목표 환경 온디바이스 / CPU 중심 환경
성능 특성 벤치마크 기준 대형 LLM 대비 성능 열세
보완 전략 RAG, Tool Calling, Workflow 설계로 애플리케이션 레벨 성능 보완 가능
활용 사례 엣지 디바이스, 모바일, 사내 폐쇄망 시스템

 


6. Homo Prompt: 질문하는 인간

생성형 AI 시대의 핵심 역량

 

"효과적인 질문이 핵심"

 

 

프롬프트 구성 요소

  1. 역할 및 임무 부여
  2. 현재 상황과 맥락 제시
  3. 요청하는 결과물 포맷

 

시장 논리에 따른 선택

AI를 잘 활용하는 업무 전문가 ✅
vs
업무 지식이 미비한 사람 ❌
vs
관심 없는 1인 ❌
 

7. System Prompt 예시

글로벌 제약회사 마케팅 전략 분석

# Role
당신은 제약 산업 마케팅 전문가입니다.

# Task
주요 제약회사의 마케팅 전략 분석

# Output Format
각 사례는 다음 형식으로:
1. 배경: 제품, 타겟 시장
2. 문제 해결 방법: 필요성
3. 적용된 마케팅 전략: 구체적 채널
4. 결과 및 효과: 성과 측정

# Example
배경: 중년 환자 대상 만성질환 관리 약품 출시
문제: 신약 효능과 안전성에 대한 신뢰 확보
전략: TV 광고 + 의사 파트너십 + 소셜미디어
결과: 판매 예상치 30% 초과

8. Decoding 전략

Temperature (온도)

값: 0~2

  • 0: Greedy Search (가장 확률 높은 것만)
  • 1: 원래 분포 그대로
  • 2: 더 창의적/랜덤

예시:

  • Temperature = 0.1 → 안정적, 일관적
  • Temperature = 0.7 → 균형
  • Temperature = 1.5 → 창의적, 예측 불가

 

Sampling 방법

  • Greedy: Max-prob 선택 (단순, 최적 아닐 수 있음)
  • Beam Search: 상위 K개 후보 유지하며 전진
  • Top-K: 확률 순 상위 K개에서 샘플링
  • Top-P (Nucleus): 누적 확률 P까지에서 샘플링

9. ChatGPT 성능의 핵심: RLHF

Supervised Fine-Tuning (SFT)

  • Instruction 데이터로 학습

Reinforcement Learning with Human Feedback (RLHF)

  • 인간 피드백 기반 강화학습
  • 인간 친화적 AI 개발

효과

  • 지시사항을 잘 따르는 모델
  • 유해/편향된 출력 감소사용자 의도 정확한 파악

10. Agent & Agentic Work

패러다임 변화

Agent (단순)
Task → Agent → 결과

Agentic Work (복잡)
Workflow 설정 → 복잡한 작업 수행


Agentic Work 예시

1. 아웃라인 작성
2. 초고 작성
3. LLM Evaluation
4. 만족할 때까지 개선 반복

 

Multi-Agent Debate

  • 여러 Agent가 토론하며 답 도출
  • 다양한 관점 고려
  • 고수준 결과물 생성

11. 주요 프레임워크

LangGraph

 

특징

  • LangChain 생태계
  • 복잡한 작업을 그래프로 구성
  • 안정적 실행

활용: Corrective RAG

  • Retrieval 품질 평가
  • Web Search 연동

CrewAI

  • Multi-Agent 동작
  • Role 기반 협업

예시 구조:
Agent 1: 콘텐츠 기획자 (Planner)
Agent 2: 콘텐츠 작성자 (Writer)
Agent 3: 편집자 (Editor)

→ 순차적으로 작업 처리


12. LLM의 미래

AGI (Artificial General Intelligence)

현재 단계: GPT-4 수준
목표: 일반 인공지능
질문:

  • AGI를 어떻게 정의할 것인가?
  • 여전히 Transformer 구조일까?

 

핵심 메시지

1. 소프트웨어 개발의 본질 변화
함수를 만들기" → "모델을 만들기" → "질문하기"

2. Homo Prompt의 시대
"효과적인 질문이 곧 경쟁력"

3. 증강 지능 (Augmented Intelligence)
"AI는 경쟁자가 아닌 도구"
인간의 경험과 지식을 확장하는 수단

 

생성형 AI 시대의 진짜 가치는
"The hottest new programming language is English"

'SKALA' 카테고리의 다른 글

HTML, CSS, JavaScript  (0) 2026.02.05
생성형 AI 기초 및 Prompt Engineering  (0) 2026.02.03
Vector Database  (0) 2026.02.02
LLM 모델 이해 및 활용(2)  (0) 2026.02.02
데이터 분석 개요 및 기초통계  (1) 2026.01.23
  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유