Chroma
크로마
AI 인프라 분야에서 미국 Chroma가 2022년에 공개한 오픈소스 벡터 데이터베이스로, RAG 파이프라인이 임베딩을 저장·검색하는 핵심 인프라로 쓰이며 로컬 단일 파일부터 클라우드까지 동일 API로 동작합니다.
검색 증강 생성(RAG, Retrieval-Augmented Generation)을 만들 때 문서를 숫자 벡터로 바꿔 보관·검색해 주는 작은 도서관이에요. 노트북에 pip install chromadb 한 줄로 설치하면 별도 서버 없이 폴더 하나에 자료가 쌓이고, 같은 코드를 클라우드에 그대로 올려도 동작합니다. 조별 과제 자료를 노션 한 곳에 모아 두고 검색해 쓰는 감각과 비슷해서, RAG 입문 단계에서 가장 자주 마주치는 이름이라 처음 한 번은 직접 띄워 두면 좋아요.
RFP 자료를 사내 캐비넷이 아니라 노트북 폴더에 색인까지 박아 보관하는 구조입니다.
Chroma 본사 — 1,800만 달러 시드와 Chroma Cloud 출시
SiliconANGLE 보도에 따르면 Chroma는 2023년 4월 Quiet Capital 주도로 1,800만 달러 시드 라운드를 마감했고, 회사 가치는 7,500만 달러로 평가됐습니다.[4] 2025년 8월에는 서버리스 벡터·풀텍스트·하이브리드 검색을 묶은 Chroma Cloud를 공개하면서 가입 즉시 5달러 무료 크레딧으로 30초 안에 운영용 DB를 띄울 수 있도록 했습니다.[1] 도입 검토 시 "프로토타입은 로컬, 운영은 Cloud"라는 단계적 채택이 표준 패턴으로 자리 잡았고, 사내 RAG PoC 단계의 표준 옵션으로 쓰입니다.
LangChain·LlamaIndex — 기본 벡터 스토어로 채택
LangChain 공식 문서는 벡터 스토어 통합 가이드의 표준 예제를 langchain-chroma 패키지 기준으로 작성하고, 별도 인증·계정 없이 pip install만으로 사용 가능한 점을 안내합니다.[5] LlamaIndex 가이드 역시 VectorStoreIndex 첫 예제 백엔드로 Chroma를 사용해, "신입 개발자가 RAG를 처음 만들 때 가장 적은 학습 비용으로 시작할 수 있는 옵션"이라는 평가가 두 프레임워크 모두에 공통으로 적용됩니다.[6] 신입 엔지니어가 사내 매뉴얼·계약서·논문을 RAG로 검색 가능하게 만들 때 출발점이 됩니다.
테디노트 / 위키독스 — 한국어 RAG 입문 자료의 표준 스택
국내 RAG 입문 자료로 가장 많이 인용되는 "랭체인LangChain 노트" 위키독스는 벡터 스토어 챕터의 첫 번째 항목으로 Chroma를 배치하고, Pinecone·FAISS보다 앞서 다룹니다.[7] 테디노트 운영자 이경록 강사의 패스트캠퍼스 RAG 강의와 GitHub langchain-kr 저장소도 PDF QA 챗봇 실습을 Chroma 기준으로 설계해, 한국 개발자가 사내 RAG PoC를 만들 때 가장 먼저 마주치는 벡터 DB로 통합니다.[7] 한국어 PDF 1만 페이지 규모를 노트북에서 바로 검증할 수 있다는 점이 결정적 채택 사유로 인용됩니다.
사내 RAG PoC — 1,000만 벡터 이하 운영 구간 표준 옵션
2026년 다수의 벡터 DB 비교 분석에서 Chroma의 권장 운영 구간은 "1,000만 벡터 이하, 데브 경험을 운영 규모보다 중시하는 팀"으로 정리됩니다.[8] 동일 비교에서 Chroma와 pgvector는 쓰기 처리량이 가장 우수한 그룹으로 묶이고, Pinecone은 하위 요금제에서 쓰기 스로틀이 걸리는 것으로 보고됩니다.[8] 사내 위키 1만 건·법무 문서 5천 건 수준의 PoC에서 Apache 2.0 라이선스·락인 없음·노트북 즉시 실행이라는 세 가지 조건이 결정적 채택 사유로 인용됩니다.[1][8]
- 터미널에서
pip install chromadb를 실행하고 공식 Quickstart 5분 예제를 그대로 따라 합니다. chromadb.Client()로 인메모리 컬렉션을 만들고 문서 10건을 넣어query()결과 상위 2건을 출력해 봅니다.- 같은 코드를
PersistentClient(path="./chroma_db")로 바꿔, 스크립트를 재실행해도 데이터가 살아남는지 확인합니다. - 위키독스 "랭체인LangChain 노트" Chroma 챕터로 한국어 PDF 1건을 벡터화해 QA 챗봇 골격을 만듭니다.
- 자사 운영 후보군을 1,000만 벡터·일 평균 쿼리 수·운영 인력 3축으로 비교해 Chroma 적합성을 표로 점검합니다.
Chroma의 한계는 운영 규모·검색 기능 폭·기업 보증의 세 축에서 분명히 드러납니다. 2026년 6월 시점의 다수 비교에서 Chroma는 "10억 벡터 이상 또는 초당 수천 쿼리 규모에는 부적합하며, Pinecone·Weaviate보다 운영 한계가 일찍 옵니다"라고 평가되며, 네이티브 하이브리드 검색이 필요해지는 시점이 사실상 다른 DB로 이동해야 하는 분기점으로 지목됩니다.[8] 분산·복제·고가용성을 직접 다뤄야 하는 단계가 오면, Milvus·Pinecone처럼 처음부터 분산을 전제로 설계된 시스템과의 운영 비용 격차가 커집니다.[8] 또한 회사 자체는 누적 외부 자금 약 2,000만 달러 규모의 시드 단계 스타트업이라, 대규모 SLA·전담 SE 인력이 필요한 엔터프라이즈 환경에서는 Pinecone Serverless·Weaviate Cloud 같은 후기 단계 공급자가 함께 검토 대상에 오릅니다.[3]
진화 방향은 세 갈래로 정리됩니다.
- 코어 엔진을 Rust로 재작성해 성능과 안정성을 끌어올리는 작업이 2026년 기준 코드베이스의 상당 비중을 차지할 만큼 진행됐고, 임베디드 단일 바이너리의 처리 한도를 밀어 올리고 있습니다.[2]
- 2025년 8월 공개된 Chroma Cloud로 서버리스 벡터·풀텍스트·하이브리드 검색을 제공하면서 "로컬 → Cloud"라는 단계적 확장 경로를 회사가 직접 제공합니다.[1]
- LangChain·LlamaIndex 같은 RAG 프레임워크가 첫 예제로 안내하는 기본 벡터 스토어 자리를 유지하면서, 신규 RAG 엔지니어가 가장 먼저 손에 잡는 도구라는 위치를 굳혀 가고 있습니다.[5][6] 실무에서는 "PoC·1,000만 벡터 이하 운영은 Chroma, 그 이상은 분산형 벡터 DB"라는 단계적 채택 기준이 표준이 되어 가는 흐름입니다.
- Chroma 공식 README 및 Cloud 소개 — 공식 저장소 · GitHub · 2026
- chroma-core/chroma GitHub 통계 및 릴리스 — 공식 저장소 · GitHub · 2026
- Chroma raises $18M seed round — 회사 공식 발표 · trychroma.com · 2023-04
- Chroma funding: Database provider raises $18M for AI-Powered Database — 권위 매체 · SiliconANGLE · 2023-04-06
- Chroma — open-source search infrastructure for AI — 회사 공식 홈페이지 · trychroma.com · 2026
- 01. Chroma — 랭체인LangChain 노트 (한국어 튜토리얼) — 한국어 튜토리얼 · 위키독스 · 2025
- Pinecone vs pgvector vs Chroma vs Weaviate (2026): Best Vector DB by Use Case — 비교 분석 · groovyweb.co · 2026
- Chroma integration — LangChain Docs — 공식 문서 · LangChain · 2026
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.