pgvector
피지벡터
AI 인프라 분야에서 쓰이는 용어로, 오픈소스 PostgreSQL에 임베딩 저장·유사도 검색 기능을 더해 주는 확장 모듈로, 기존 RDB에 곧바로 벡터 검색을 붙일 수 있어 운영 부담을 줄여 줍니다.
pgvector는 이미 회사에서 쓰고 있는 PostgreSQL(피지큐엘) 데이터베이스에 "비슷한 의미의 글을 찾아 주는 검색 기능"을 얹어 주는 무료 확장 모듈이에요. 학교 도서관에 비유하면, 기존 도서관 시스템에 책 제목으로만 찾던 검색대를 그대로 두고, 옆에 "이 책이랑 분위기 비슷한 책"을 골라 주는 도우미 한 명을 추가로 앉히는 모양에 가깝습니다. 새로 도서관 건물을 짓지 않아도 되니, 사내에 이미 Postgres가 깔려 있다면 별도 벡터 DB를 따로 살피지 않고 SQL 한 줄로 RAG·시맨틱 검색을 붙일 수 있어요. AI 챗봇이나 사내 매뉴얼 검색을 운영 부담 없이 시작하고 싶을 때 가장 먼저 후보에 오르는 도구입니다.
이미 쓰는 결재 시스템에 "벡터 결재선" 한 줄을 추가하는 방식입니다.
Supabase — pgvector를 표준 벡터 스택으로 채택
Supabase는 "AI & Vectors" 공식 문서에서 pgvector를 자사 벡터 스택의 기본 엔진으로 명시하고, "가장 좋은 벡터 DB는 이미 쓰고 있는 DB"라는 슬로건으로 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 가이드를 운영합니다.[04] 동일 페이지의 케이스 스터디에는 Berri AI가 AWS RDS 자체 운영을 접고 Supabase + pgvector로 이전한 사례와, Firecrawl이 Pinecone에서 Supabase pgvector로 전환한 사례가 게시되어 있습니다.[07][08] SQL·임베딩·인증을 한 백엔드에서 처리하는 구조가 매니지드 옵션의 표준으로 자리잡은 사례입니다.
한국 — 한국어 특화 프로덕션 RAG가 pgvector를 채택
2026년 공개된 오픈소스 한국어 RAG 시스템 UrstoryRAG는 pgvector 벡터 검색과 Elasticsearch Nori 한국어 형태소 분석을 결합한 하이브리드 구조를 표준 아키텍처로 채택했습니다.[05] 한국어 리랭커(bge-reranker-v2-m3-ko), HyDE(Hypothetical Document Embeddings, 가상 문서 임베딩), RAGAS 평가, Langfuse 모니터링까지 한 스택으로 묶었습니다.[05] 한국어 도메인 문서에서 의미 검색과 조사·어미 보정을 동시에 잡기 위한 실무 패턴으로 인용되고 있습니다.
엔터프라이즈 벤치마크 — Pinecone 대비 지연·비용 비교
JustSoftLab가 2025년 5월 공개한 5천만 벡터·1536차원 벤치마크는 자가 호스팅 Postgres + pgvector(+ pgvectorscale) 구성이 재현율 99%에서 p95 지연 28ms, Pinecone s1 동일 조건에서 p95 784ms를 기록했다고 보고했습니다.[06] 월 운영 비용은 AWS EC2 자가 호스팅 약 $835, Pinecone s1 약 $3,241로 약 75% 절감으로 집계됐습니다.[06] SQL 필터를 끼우는 질의에서는 Postgres 옵티마이저가 인덱스를 함께 가지치기할 수 있어 격차가 더 벌어진다는 점도 함께 보고됐습니다.[06]
PostgreSQL 커뮤니티 — 공식 뉴스 채널 릴리스 공지
PostgreSQL Global Development Group은 자체 뉴스 페이지에 pgvector 0.5.0(2023), 0.6.0(2024.1), 0.7.0(2024.4), 0.8.0(2024.11), 0.8.2 릴리스를 차례로 공지했습니다.[02] 0.8.0 공지에서는 "ANN(Approximate Nearest Neighbor, 근사 최근접 이웃) 인덱스를 안 쓰고도 같은 성능이면 그쪽이 재현율 100%를 보장하므로 일반적으로 더 낫다"는 권고가 명시되어 있습니다.[02] 외부 확장이 PostgreSQL 공식 채널의 정규 릴리스 트랙에 오른 사례로, 학술·정부 인용에 사용됩니다.
- 운영 중인 Postgres에서
CREATE EXTENSION vector;한 줄로 확장을 활성화합니다.[01] - 임베딩 컬럼을
ALTER TABLE docs ADD COLUMN embedding vector(1536);형태로 추가합니다.[01] - 인덱스는 HNSW로 잡습니다 —
CREATE INDEX ON docs USING hnsw (embedding vector_cosine_ops);[01] - OpenAI
text-embedding-3-small같은 모델로 청크별 벡터를 만들어 적재하고,ORDER BY embedding <=> $1 LIMIT 10으로 상위 K개를 뽑습니다.[04] - 데이터가 5천만 행을 넘기거나 다중 테넌트 SLA가 빠듯해지면 pgvectorscale·전용 벡터 DB 도입을 검토합니다.[06]
pgvector도 만능은 아닙니다. 공식 README는 HNSW 인덱스의 VACUUM 시간이 길고, 병렬 빌드 시 maintenance_work_mem과 컨테이너 --shm-size를 함께 키워야 한다고 명시합니다.[01] 0.8.0 릴리스 공지도 "ANN 인덱스를 쓰지 않고 같은 성능이 나오면 그쪽이 재현율 100%를 보장하므로 보통 더 낫다"고 권고합니다.[02] 5천만 벡터·고동시성 구간에 들어가면 Pinecone처럼 전용 인프라가 우위를 보이는 영역도 있다는 점이 외부 벤치마크에서 보고됐습니다.[06] 임베딩 모델을 교체할 때 저장된 벡터를 전부 재계산해야 하는 것은 모든 벡터 스택의 공통 한계로, pgvector도 예외가 아닙니다.
진화 방향은 세 갈래로 정리됩니다.
- 인덱스 알고리즘 자체가 계속 개선되고 있습니다. 0.8.0의 반복 인덱스 스캔은 "WHERE 조건 때문에 결과가 K개에 못 미치는 과필터링" 문제를 줄이려는 변경입니다.[02]
- Timescale·Tiger Data가 공개한 pgvectorscale 같은 보완 확장이 디스크 기반 인덱스와 자동 튜닝을 더해 대규모 워크로드를 흡수하고 있습니다.[06]
- Supabase·AWS RDS·Google Cloud SQL·Azure가 모두 pgvector를 매니지드 옵션으로 흡수하면서, 신규 RAG 프로젝트가 별도 벡터 DB 없이 시작하는 비중이 늘고 있습니다.[04]
- pgvector — Open-source vector similarity search for Postgres — 공식 저장소 README · GitHub (Andrew Kane) · 2025
- PostgreSQL: pgvector 0.8.0 Released! — 공식 릴리스 공지 · PostgreSQL Global Development Group · 2024-11-11
- Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs (Malkov & Yashunin) — 학술 논문 · arXiv / IEEE TPAMI · 2018
- AI & Vectors — Supabase Docs — 회사 공식 문서 · Supabase · 2025
- urstory-rag: 한국어 특화 프로덕션 RAG 시스템 (PGVector + Elasticsearch Nori) — 오픈소스 저장소 README · GitHub · 2026
- Postgres + pgvector vs Pinecone: A Production Benchmark to 50M Vectors — 벤치마크 보고서 · JustSoftLab · 2025-05
- Berri AI Boosts Productivity by Migrating from AWS RDS to Supabase with pgvector — 회사 공식 케이스 스터디 · Supabase Customers · 2024
- Firecrawl switches from Pinecone to Supabase for PostgreSQL vector embeddings — 회사 공식 케이스 스터디 · Supabase Customers · 2024
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.