1. 데이터베이스의 진화 배경
기존 데이터베이스(RDB)가 실패한 것이 아니라, AI 서비스의 등장으로 질문의 성격이 바뀌었기 때문에 Vector DB 등장
- 정형 데이터 시대 (RDB): 입금 내역, 계좌 잔액 등 정확한 기록과 계산, '얼마인가', '존재하는가'와 같은 질문에 최적화되어 있음
- 비정형 데이터 폭증: 이메일, 문서, 로그 등 데이터가 늘어났으나 RDB는 파일의 위치만 알 뿐 내용은 알지 못함.
- AI 서비스 시대: 사용자는 정확한 키워드 대신 '의미 중심'으로 질문하며, 이에 답하기 위해 상세 파일 내용에 접근할 수 있는 DB가 필요해짐
2. RDB vs Vector DB 비교
| 구분 | Relational DB (RDB) | Vector DB |
| 목적 | 값을 저장하고 비교 | 의미를 숫자 벡터로 저장하고 비교 |
| 데이터 관리 | 값 중심 데이터(숫자, 문자열)를 저장 | 벡터 형태의 숫자 배열을 저장 |
| 검색 기준 | 정확히 일치하는 값 기반 검색(Exact Match) | 의미적 유사도 기반 검색(Similarity Search) |
| 처리 방식 | 조건절(WHERE)을 통한 비교 연산 | 거리·코사인 유사도 등을 통한 벡터 연산 |
| 질문 예시 | “잔액이 500원인가?” | “이 문장과 가장 비슷한 문서는?” |
3. Vector와 Embedding의 핵심 원리
- Vector: 텍스트의 의미를 고차원 공간의 좌표로 표현한 결과물로, 거리를 통해 유사성 확인
- Embedding 모델: 사람이 쓰는 언어를 기계가 이해할 수 있는 숫자 벡터로 변환하며, 이 모델의 품질이 곧 검색 품질을 결정
- 유사도 측정: 주로 코사인 유사도(Cosine Similarity)를 사용. 벡터의 크기가 아닌 '방향'에 초점을 맞추어 두 데이터가 얼마나 같은 방향을 향하는지 측정
4. Vector DB의 구성 요소
Vector DB는 단순히 숫자 배열만 저장하는 것이 아니라, 다음의 요소들로 구성됨
- ID: 각 포인트를 식별하는 고유값.
-
Vector: 유사도 검색의 핵심인 다차원 수치 데이터.
-
Metadata: 원문 텍스트, 날짜, 출처 등 검색 결과를 사람이 이해할 수 있게 해주는 연결 고리이며, 필터링에도 사용됨.
5. AI 서비스에서의 검색 프로세스
Vector DB의 검색은 단순한 매칭이 아니라 다음과 같은 실행 구조를 가짐.
- Query Embedding: 사용자 질문을 벡터로 변환
- Similarity Search: 벡터 간 거리 계산을 통해 유사한 후보군(Top-K)을 추림
- Metadata Filtering: 메타데이터를 이용해 날짜나 카테고리 등으로 최종 결과를 선별하여 반환
요약하자면, Vector DB는 AI가 데이터를 '의미' 단위로 이해하고 검색할 수 있게 해주는 핵심 저장소로, 현대의 생성형 AI 서비스(RAG 등)를 구현하는 데 필수적인 기술이다.
'SKALA' 카테고리의 다른 글
| HTML, CSS, JavaScript (0) | 2026.02.05 |
|---|---|
| 생성형 AI 기초 및 Prompt Engineering (0) | 2026.02.03 |
| LLM 모델 이해 및 활용(2) (0) | 2026.02.02 |
| LLM 모델 이해 및 활용(1) (1) | 2026.01.28 |
| 데이터 분석 개요 및 기초통계 (1) | 2026.01.23 |

