데이터·DB

Vector Database

벡터 DB

AI 인프라 분야에서 쓰이는 용어로, 임베딩 벡터를 저장하고 가장 가까운 의미를 가진 벡터들을 빠르게 찾아 주도록 만든 데이터베이스로, RAG·시맨틱 검색·추천에 폭넓게 쓰입니다.

쉬운 풀이

벡터 데이터베이스는 글·그림·코드를 "의미가 비슷한지"로 검색할 수 있도록 숫자 벡터 형태로 모아 두는 데이터베이스예요. 학교 도서관에 비유하면, 일반 데이터베이스가 책 제목으로만 찾는 카드 목록이라면 벡터 데이터베이스는 "이 책이랑 분위기 비슷한 책"을 한 번에 골라 주는 서가 배치 시스템에 가깝습니다. ChatGPT 같은 모델에 사내 문서를 붙여 답하게 하려면 질문과 의미가 가까운 문서 조각을 빠르게 찾아 줄 부품이 필요한데, 그 자리에 들어가는 데이터 저장소예요. 사내 매뉴얼 챗봇, 추천 시스템, AI 검색이 모두 이 구조 위에 올라간다고 알아 두면 쓸모가 많습니다.

한 줄 비유

서류함을 키워드가 아니라 "비슷한 내용끼리" 묶어 정리해 둔 자료실입니다.

활용 예시

Case 1

Pinecone — Notion Q&A 백엔드, 인프라 비용 60% 절감

Pinecone은 인프라 운영 없이 API만으로 수십억 벡터 인덱스를 다루는 완전관리형 벡터 데이터베이스입니다 ^[3]. Notion은 자사 워크스페이스 Q&A AI의 검색 인프라로 Pinecone 서버리스를 채택했고, 공식 고객 사례에 인프라 비용이 60% 줄었다고 명시되어 있습니다 ^[8]. 운영 인력이 부족하고 트래픽이 들쭉날쭉한 SaaS·B2C 환경에 적합한 옵션입니다.

Case 2

SK텔레콤 데보션 — Milvus·Qdrant·Vespa 비교 검토 공개

SK텔레콤 기술 블로그 데보션은 자사 RAG 시스템 후보로 Vespa·Milvus·Qdrant를 비교 검토한 내용을 공개했습니다 ^[4]. 동일 블로그는 LangChain 초기 도입이 Pinecone에서 시작했으나, 데이터가 늘면서 비용·성능 부담이 커져 Milvus로 전환을 검토한 사례를 함께 언급합니다 ^[4]. 오픈소스 자체 호스팅은 라이선스 비용이 없는 대신 쿠버네티스 운영과 인덱스 튜닝 공수를 사내가 떠안는 트레이드오프가 명확합니다 ^[4].

Case 3

pgvector — 5천만 벡터·재현율 99% 조건 p95 28ms

pgvector는 PostgreSQL에 vector 컬럼 타입을 추가하는 오픈소스 확장으로, 별도 벡터 데이터베이스를 띄우지 않고 SQL 한 줄로 유사도 검색을 처리합니다 ^[6]. JustSoftLab 2025년 5월 벤치마크는 5천만 벡터·1536차원·재현율 99% 조건에서 pgvector p95 28ms, Pinecone s1 p95 784ms, 월 비용은 자체 호스팅 약 $835 대 Pinecone 약 $3,241을 기록했다고 보고했습니다 ^[10]. 이미 Postgres가 사내 표준 DB라면 진입 비용이 가장 낮은 옵션입니다.

Case 4

Meta FAISS — GPU에서 빌리언 스케일 유사도 검색

Meta(당시 Facebook AI Research)의 Jeff Johnson·Matthijs Douze·Hervé Jégou가 2017년 arXiv에 공개한 FAISS는 GPU에서 수십억 벡터 규모의 유사도 검색을 수행하는 오픈소스 라이브러리입니다 ^[5]. 논문은 k-selection이 이론적 피크의 최대 55%까지 동작하며, 당시 GPU 최단경로 구현 대비 8.5배 빠른 최근접 이웃 검색을 달성했다고 보고했습니다 ^[5]. Pinecone·Weaviate·Milvus 같은 상용·오픈소스 벡터 데이터베이스의 내부 인덱스 엔진으로도 광범위하게 채택됐습니다.

오늘 바로 해보기

검색 대상 문서를 정하고 OpenAI text-embedding-3-small 같은 임베딩 모델로 청크별 벡터를 만듭니다.
데이터가 수만 건 이하이거나 Postgres가 이미 사내 표준이라면 CREATE EXTENSION vector;로 pgvector를 활성화해 시작합니다 ^[6].
인덱스는 HNSW로 잡고, 코사인 거리로 상위 K개(보통 top-10~20)와 메타데이터 필터(부서·작성일)를 함께 겁니다 ^[7].
데이터셋 절반을 평가셋으로 분리해 재현율·p95 지연을 동시에 측정하고, 한국어라면 BM25 토크나이저(Nori)와 함께 하이브리드 검색으로 정확도를 검증합니다 ^[9].
데이터가 수천만 건을 넘기거나 멀티테넌트 SLA가 필요해지면 Pinecone·Milvus·Weaviate 같은 전용 솔루션을 검토합니다 ^[3][4].

한계와 진화

벡터 데이터베이스도 만능은 아닙니다. ANN은 이름 그대로 "근사" 검색이라, 인덱스 파라미터(HNSW의 M·efSearch 같은 값)에 따라 재현율과 지연 시간이 트레이드오프 됩니다 ^[7]. 재현율 95% 이상을 유지하면서 단일 자리 밀리초 응답을 내는 것이 일반적인 목표지만, 데이터가 수억 건을 넘기면 메모리 사용량이 빠르게 늘어납니다 ^[7]. 또한 임베딩 모델을 바꾸면 저장된 벡터를 전부 다시 만들어야 합니다 — 이전 벡터와 새 벡터는 의미 공간이 달라 비교가 안 되기 때문입니다 ^[1]. 운영 방식 측면에서도 매니지드·자체 호스팅·임베디드·확장형으로 비용·성능 곡선이 갈리며, SK텔레콤 데보션은 Pinecone이 비용·성능 부담으로 Milvus 전환을 검토한 사례를 공개적으로 기록하고 있습니다 ^[4].

진화 방향은 세 갈래로 보입니다.

키워드 검색(BM25)과 벡터 검색을 함께 쓰는 하이브리드 검색이 표준에 가까워지고 있습니다 — 한국어처럼 조사·어미가 의미를 바꾸는 언어에서는 특히 필수입니다 ^[9]. 정확한 제품명·코드·법령 조항이 들어간 질의는 벡터만으로 잡기 어렵기 때문입니다.
HNSW를 개선한 인덱스 알고리즘이 계속 나오고 있습니다. 2024년 공개된 AQR-HNSW 계열 후속 연구는 기존 HNSW 대비 QPS를 2.5~3.3배 끌어올리면서 재현율 98%를 유지했다고 보고됐습니다 ^[7].
기존 관계형 DB·검색엔진(Postgres·Elasticsearch·MongoDB Atlas)이 벡터 컬럼을 흡수하면서 별도 전용 벡터 데이터베이스를 두지 않고 RAG를 구축하는 선택지가 늘었습니다 ^[6]. 업계에서는 보통 "데이터 규모·운영 인력·기존 스택" 세 축으로 옵션을 고르는 흐름이 자리 잡고 있다고 평가합니다 ^[2].

이 용어와의 관계

유사 개념
pgvector같은 데이터·DB 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Milvus같은 데이터·DB 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Qdrant같은 데이터·DB 갈래에서 자주 함께 등장하는 개념입니다.