Executive Summary: 소프트웨어 개발 방식의 진화
패러다임 변화
| 전통적 개발: 함수를 만든다 AI 소프트웨어: 모델을 만든다 |
3단계 진화
- Software 1.0 (전통적 프로그래밍)
- 인간이 직접 모든 규칙을 정의
- 요구사항을 함수로 구현
- Software 2.0 (ML/DL)
- 데이터 기반으로 모델 학습
- 컴퓨터가 패턴을 찾아 함수 생성
- Software 3.0 (LLM/Generative AI)
- 인간 언어로 컴퓨터와 소통
- Multi-Agent로 팀워크 구현
1. LLM(Large Language Model)이란?
"방대한 텍스트 데이터로 훈련된 거대 언어 모델로, 인간 언어를 이해하고 생성할 수 있는 AI 시스템"
핵심 특징
- "거대"의 의미: 파라미터와 학습 데이터 모두 거대
- 작동 원리: 맥락(Context)을 기반으로 다음 단어를 확률적으로 예측
- Decoder 중심: 주어진 문장을 토대로 이후 문장 생성
2. LLM의 태생적 한계와 해결책
환각(Hallucination) 현상
- 문제: 맥락 예측 방식이라 사실이 아닌 내용 생성 가능
- 원인: 확률 기반 다음 단어 예측 → "확률론적 앵무새"
RAG (Retrieval-Augmented Generation)
검색 증강 생성으로 한계 극복
- 전통 LLM: User Question → LLM → 맥락 예측? (환각 위험)
- RAG 방식: User Question → Vector DB 검색 → 관련 정보 + Question → LLM
Vector DB
- 사용자 데이터를 벡터로 변환하여 저장
- 질의와 관련된 정보를 검색해 프롬프트에 포함
- 2022년 이후 LLM의 가장 대표적인 애플리케이션
3. Transformer: LLM 시대의 일등 공신
혁신적 구조 (2017년 Google 논문) - "Attention is All You Need"
Encoder-Decoder 구조
- Encoder: 입력 문장의 의미를 벡터로 추출
- Decoder: 벡터를 해석하여 목표 문장 생성
Self-Attention 메커니즘
| 핵심 질문: "이 문장에서 이 단어는 어떤 의미인가?" 예: "나는 밥을 먹었다" - "나는" = "나는 밥을 먹었다"에서의 "나는" - "밥을" = "나는 밥을 먹었다"에서의 "밥을" |
QKV (Query, Key, Value)
| Query: 해당 단어가 다른 단어와 얼마나 연관되는지 묻는 값 Key: 각 단어의 의미를 나타내는 값 (자기소개) Value: 해당 단어의 실제 의미 예: "The animal didn't cross the street because it was too tired." Q: <it>은 무엇을 가리키나요? K: 나는 'animal'이야 / 나는 'street'이야 V: 유사도 계산 → <animal> 가중치 높음! |
Multi-Head Attention
- 여러 관점에서 동시에 질문
- 더 정확한 문맥 이해 가능
Positional Encoding
| 문제: "위에서 아래" vs "아래에서 위" 구별 불가 해결: 단어 임베딩 + 위치 인코딩 벡터 |
4. BERT vs GPT
BERT (2018)
Bidirectional Encoder Representations from Transformers
| 구조: Transformer의 Encoder 사용 방향: 양방향 (Bidirectional) 목적: 문장 이해 |
핵심 기능
- Masked Language Model: 문장 일부를 마스킹하고 예측
- 예: "The animal didn't [MASK] the street"
- 양방향 문맥 이해: 앞뒤 모든 단어 고려
활용
- 문서 분류
- 질문 응답
- 감정 분석
- Pre-training + Fine-tuning 구조
GPT (2018~)
Generative Pre-trained Transformer
| 구조: Transformer의 Decoder 사용 방향: 단방향 (Unidirectional) 목적: 텍스트 생성 (Autoregressive) |
Autoregressive Model
- 이전 값을 기반으로 다음 값 예측
- Masked Multi-Head Attention: 미래 시점 토큰 마스킹
버전별 진화
| 모델 | 출시 연도 | 파라미터 수 | Context 길이 | 주요 특징 |
| GPT-1 | 2018 | 약 1.17억 | 수백 토큰 | 최초의 Transformer 기반 단방향 텍스트 생성 모델 |
| GPT-2 | 2019 | 약 15억 | 수천 토큰 | 긴 문맥 처리 가능, 자연스러운 장문 생성 |
| GPT-3 | 2020 | 약 1,750억 | 4,096 토큰 | Few-Shot 학습 개념 정립, 범용 언어 모델 |
| GPT-4 | 2023 | 미공개 | 최대 128,000 토큰 | 멀티모달 지원(텍스트·이미지), 추론·정확도 대폭 향상 |
Context Window 비교
LSTM: 512 토큰
BERT: 512 토큰
GPT-3: 2,048 토큰
GPT-3.5: 4,096 토큰
GPT-4: 32,768 토큰
Claude-100K: 100,000 토큰
Gemini: 1M~2M 토큰
※ 한국어 보험약관 200페이지 = 약 20만 토큰
5. 주요 LLM 서비스
① Closed-Source LLMs
| 모델 | 제공사 | Context 길이 | 주요 특징 |
| GPT | OpenAI | 128k | 코드 인터프리터, DALL·E 3, GPTs, 고성능 이미지·음성 멀티모달 |
| Claude | Anthropic | 200k | Artifact 기능 (SVG, JS, HTML 등 구조화된 산출물 생성) |
| Gemini | 1M ~ 2M | 초장문 컨텍스트 처리, 우수한 멀티모달 성능 | |
| Grok | xAI | 128k | 제한 없는 이미지 생성(Flux), 실시간성 강조 |
② Open-Weight LLMs
| 모델 | 세부 버전 | 파라미터 규모 | 특징 |
| Meta Llama | 3.1 | 8B / 70B / 405B | 범용 고성능, 대규모 파라미터 |
| 3.2 | 1B / 3B / 11B / 90B | Vision 지원, 경량~대형 라인업 | |
| Alibaba Qwen | Qwen Series | 0.5B ~ 72B | Coder / Math 특화 모델 제공 |
| Google Gemma | Gemma 2 | 2B / 9B / 27B | 경량화 중심, Google 생태계 친화 |
| Microsoft Phi | Phi-3 | 3.8B / 7.4B / 14B | 소형 모델 대비 높은 추론 성능 |
③ sLLM (Small LLM)
| 구분 | 내용 |
| 목표 환경 | 온디바이스 / CPU 중심 환경 |
| 성능 특성 | 벤치마크 기준 대형 LLM 대비 성능 열세 |
| 보완 전략 | RAG, Tool Calling, Workflow 설계로 애플리케이션 레벨 성능 보완 가능 |
| 활용 사례 | 엣지 디바이스, 모바일, 사내 폐쇄망 시스템 |
6. Homo Prompt: 질문하는 인간
생성형 AI 시대의 핵심 역량
"효과적인 질문이 핵심"
프롬프트 구성 요소
- 역할 및 임무 부여
- 현재 상황과 맥락 제시
- 요청하는 결과물 포맷
시장 논리에 따른 선택
vs
업무 지식이 미비한 사람 ❌
vs
관심 없는 1인 ❌
7. System Prompt 예시
글로벌 제약회사 마케팅 전략 분석
# Role
당신은 제약 산업 마케팅 전문가입니다.
# Task
주요 제약회사의 마케팅 전략 분석
# Output Format
각 사례는 다음 형식으로:
1. 배경: 제품, 타겟 시장
2. 문제 해결 방법: 필요성
3. 적용된 마케팅 전략: 구체적 채널
4. 결과 및 효과: 성과 측정
# Example
배경: 중년 환자 대상 만성질환 관리 약품 출시
문제: 신약 효능과 안전성에 대한 신뢰 확보
전략: TV 광고 + 의사 파트너십 + 소셜미디어
결과: 판매 예상치 30% 초과
8. Decoding 전략
Temperature (온도)
값: 0~2
- 0: Greedy Search (가장 확률 높은 것만)
- 1: 원래 분포 그대로
- 2: 더 창의적/랜덤
예시:
- Temperature = 0.1 → 안정적, 일관적
- Temperature = 0.7 → 균형
- Temperature = 1.5 → 창의적, 예측 불가
Sampling 방법
- Greedy: Max-prob 선택 (단순, 최적 아닐 수 있음)
- Beam Search: 상위 K개 후보 유지하며 전진
- Top-K: 확률 순 상위 K개에서 샘플링
- Top-P (Nucleus): 누적 확률 P까지에서 샘플링
9. ChatGPT 성능의 핵심: RLHF
Supervised Fine-Tuning (SFT)
- Instruction 데이터로 학습
Reinforcement Learning with Human Feedback (RLHF)
- 인간 피드백 기반 강화학습
- 인간 친화적 AI 개발
효과
- 지시사항을 잘 따르는 모델
- 유해/편향된 출력 감소사용자 의도 정확한 파악
10. Agent & Agentic Work
패러다임 변화
Agent (단순)
Task → Agent → 결과
Agentic Work (복잡)
Workflow 설정 → 복잡한 작업 수행
Agentic Work 예시
1. 아웃라인 작성
2. 초고 작성
3. LLM Evaluation
4. 만족할 때까지 개선 반복
Multi-Agent Debate
- 여러 Agent가 토론하며 답 도출
- 다양한 관점 고려
- 고수준 결과물 생성
11. 주요 프레임워크
LangGraph
특징
- LangChain 생태계
- 복잡한 작업을 그래프로 구성
- 안정적 실행
활용: Corrective RAG
- Retrieval 품질 평가
- Web Search 연동
CrewAI
- Multi-Agent 동작
- Role 기반 협업
예시 구조:
Agent 1: 콘텐츠 기획자 (Planner)
Agent 2: 콘텐츠 작성자 (Writer)
Agent 3: 편집자 (Editor)
→ 순차적으로 작업 처리
12. LLM의 미래
AGI (Artificial General Intelligence)
현재 단계: GPT-4 수준
목표: 일반 인공지능
질문:
- AGI를 어떻게 정의할 것인가?
- 여전히 Transformer 구조일까?
핵심 메시지
1. 소프트웨어 개발의 본질 변화
함수를 만들기" → "모델을 만들기" → "질문하기"
2. Homo Prompt의 시대
"효과적인 질문이 곧 경쟁력"
3. 증강 지능 (Augmented Intelligence)
"AI는 경쟁자가 아닌 도구"
인간의 경험과 지식을 확장하는 수단
생성형 AI 시대의 진짜 가치는
"The hottest new programming language is English"
'SKALA' 카테고리의 다른 글
| HTML, CSS, JavaScript (0) | 2026.02.05 |
|---|---|
| 생성형 AI 기초 및 Prompt Engineering (0) | 2026.02.03 |
| Vector Database (0) | 2026.02.02 |
| LLM 모델 이해 및 활용(2) (0) | 2026.02.02 |
| 데이터 분석 개요 및 기초통계 (1) | 2026.01.23 |

