SKALA / / 2026. 2. 2. 09:39

Vector Database

1. 데이터베이스의 진화 배경

기존 데이터베이스(RDB)가 실패한 것이 아니라, AI 서비스의 등장으로 질문의 성격이 바뀌었기 때문에 Vector DB 등장

  • 정형 데이터 시대 (RDB): 입금 내역, 계좌 잔액 등 정확한 기록과 계산, '얼마인가', '존재하는가'와 같은 질문에 최적화되어 있음
  • 비정형 데이터 폭증: 이메일, 문서, 로그 등 데이터가 늘어났으나 RDB는 파일의 위치만 알 뿐 내용은 알지 못함.
  • AI 서비스 시대: 사용자는 정확한 키워드 대신 '의미 중심'으로 질문하며, 이에 답하기 위해 상세 파일 내용에 접근할 수 있는 DB가 필요해짐

2. RDB vs Vector DB 비교

구분 Relational DB (RDB) Vector DB
목적 값을 저장하고 비교 의미를 숫자 벡터로 저장하고 비교
데이터 관리 값 중심 데이터(숫자, 문자열)를 저장 벡터 형태의 숫자 배열을 저장
검색 기준 정확히 일치하는 값 기반 검색(Exact Match) 의미적 유사도 기반 검색(Similarity Search)
처리 방식 조건절(WHERE)을 통한 비교 연산 거리·코사인 유사도 등을 통한 벡터 연산
질문 예시 “잔액이 500원인가?” “이 문장과 가장 비슷한 문서는?”

 


3. Vector와 Embedding의 핵심 원리

  • Vector: 텍스트의 의미를 고차원 공간의 좌표로 표현한 결과물로, 거리를 통해 유사성 확인
  • Embedding 모델: 사람이 쓰는 언어를 기계가 이해할 수 있는 숫자 벡터로 변환하며, 이 모델의 품질이 곧 검색 품질을 결정
  • 유사도 측정: 주로 코사인 유사도(Cosine Similarity)를 사용. 벡터의 크기가 아닌 '방향'에 초점을 맞추어 두 데이터가 얼마나 같은 방향을 향하는지 측정

4. Vector DB의 구성 요소

Vector DB는 단순히 숫자 배열만 저장하는 것이 아니라, 다음의 요소들로 구성됨

  1.  
  2. ID: 각 포인트를 식별하는 고유값.
  3. Vector: 유사도 검색의 핵심인 다차원 수치 데이터.
  4. Metadata: 원문 텍스트, 날짜, 출처 등 검색 결과를 사람이 이해할 수 있게 해주는 연결 고리이며, 필터링에도 사용됨.

5. AI 서비스에서의 검색 프로세스

Vector DB의 검색은 단순한 매칭이 아니라 다음과 같은 실행 구조를 가짐.

  • Query Embedding: 사용자 질문을 벡터로 변환
  • Similarity Search: 벡터 간 거리 계산을 통해 유사한 후보군(Top-K)을 추림
  • Metadata Filtering: 메타데이터를 이용해 날짜나 카테고리 등으로 최종 결과를 선별하여 반환

 

요약하자면, Vector DB는 AI가 데이터를 '의미' 단위로 이해하고 검색할 수 있게 해주는 핵심 저장소로, 현대의 생성형 AI 서비스(RAG 등)를 구현하는 데 필수적인 기술이다.

 

'SKALA' 카테고리의 다른 글

HTML, CSS, JavaScript  (0) 2026.02.05
생성형 AI 기초 및 Prompt Engineering  (0) 2026.02.03
LLM 모델 이해 및 활용(2)  (0) 2026.02.02
LLM 모델 이해 및 활용(1)  (1) 2026.01.28
데이터 분석 개요 및 기초통계  (1) 2026.01.23
  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유