Embedding
임베딩
AI 기초 분야에서 쓰이는 용어로, 문장·이미지·코드 같은 데이터를 컴퓨터가 이해할 수 있는 숫자 벡터로 변환해 의미가 비슷한 항목끼리 가깝게 배치하는 표현 방식입니다.
임베딩은 컴퓨터가 글이나 그림의 "뜻"을 좌표로 바꿔 적어 두는 작업이에요. Spotify가 "비슷한 노래"를 추천하거나 인스타그램이 비슷한 릴스를 띄워 줄 때 쓰는 게 바로 이 원리입니다. 노래·문장·사진을 모두 같은 좌표계에 점으로 찍어 두면, 가까운 점끼리는 "비슷한 것"으로 묶을 수 있어요. 학과 자료실 책 1만 권에 각각 좌표를 적어 놓고 "내 시험 주제랑 가까운 책"부터 꺼내 보는 그림과 비슷합니다. ChatGPT가 사내 매뉴얼을 읽고 답하거나, 쿠팡이 비슷한 상품을 끌어올 때 뒤에서 돌고 있는 부품이라 알아 두면 쓸모가 많습니다.
모든 문서에 좌표를 찍어두고, 질문도 같은 좌표계에서 가까운 자리부터 꺼내는 방식입니다.
OpenAI text-embedding-3 — 신모델 전환으로 비용 80% 절감, 한국어 검색 품질 대폭 개선
OpenAI는 2024년 1월 text-embedding-3-small과 3-large를 공개했습니다 [1]. 다국어 검색 벤치마크 MIRACL 평균 점수가 직전 모델 ada-002의 31.4%에서 54.9%로 올랐고, MTEB 평균은 61.0%에서 64.6%로 상승했습니다 [1]. 동시에 small 모델 가격은 1k 토큰당 $0.0001에서 $0.00002로 5분의 1 수준이 됐어요 [1]. RAG 파이프라인에서 임베딩 모델 교체 한 번으로 검색 품질과 운영비를 동시에 개선한 표준 사례로 인용됩니다.
업스테이지 Solar Embedding — 한국어 검색 Ko-MIRACL +7.84점
업스테이지는 2024년 5월 Solar Embedding-1-Large를 공개했습니다 [5]. 자사 직전 모델 대비 영어 MTEB 4.91점, 한국어 Ko-MIRACL 7.84점이 올랐고, OpenAI text-embedding-3-large보다 한국어 검색에서 더 높은 점수를 기록했다고 공식 발표에서 밝혔습니다 [5]. 모델은 쿼리용과 문서용을 분리한 듀얼 구조로, 외산 모델 의존 없이 사내 문서 검색 시스템을 구축하려는 한국 기업이 우선 검토 대상으로 꼽는 모델입니다. 한국어 비중이 큰 RAG 시스템에 적합한 사례입니다.
카카오 Kanana-v-embedding — 한국어·이미지 멀티모달 임베딩 자체 개발
카카오는 2025년 12월 한국어와 이미지를 한 벡터 공간에서 다루는 멀티모달 임베딩 모델 'Kanana-v-embedding' 개발기를 공식 기술 블로그에 공개했습니다 [7]. "해변에서 노는 강아지 사진 찾아줘" 같은 한국어 자연어 질의로 앨범에서 해당 사진을 찾는 시나리오를 목표로 설계됐어요 [7]. 같은 시기 쿠팡 엔지니어링 블로그는 카탈로그 중복 상품 매칭에 이미지·텍스트 임베딩을 함께 쓴다고 공개했고 [8], 네이버는 자체 LLM HyperCLOVA X 기반 검색 서비스 Cue:를 검색 결과에 통합했습니다 [9]. 한국 IT 대형사가 외산 임베딩 의존을 줄이며 사내 자산화하는 흐름이 자리잡고 있습니다.
Sentence-BERT — 학계가 검증한 검색 속도 13,000배 개선
독일 TU Darmstadt의 Reimers·Gurevych는 2019년 EMNLP에서 Sentence-BERT를 발표했습니다 [4]. 기존 BERT로 1만 문장 중 가장 비슷한 쌍을 찾는 데 약 65시간이 걸리던 작업을, 문장 임베딩 방식으로 약 5초까지 단축했다고 보고했어요 [4]. 이 논문은 RAG·시맨틱 검색의 실용화를 앞당긴 핵심 레퍼런스로, 현재 Hugging Face의 sentence-transformers 라이브러리 형태로 학계와 산업 모두에서 표준으로 쓰입니다 [4]. 대학·연구실에서 정규 NLP 과목 실습 자료로도 폭넓게 채택돼 있습니다.
- 자사 문서 100건을 골라 OpenAI text-embedding-3-small이나 Solar Embedding으로 벡터화합니다.
- 벡터를 pgvector·Pinecone·Chroma 등 벡터 DB에 저장합니다.
- 실제 사내에서 자주 들어오는 질문 10개를 골라 검색해보고, 상위 5개 결과 적중률을 기록합니다.
- 같은 쿼리를 키워드 검색과 임베딩 검색으로 각각 돌려 정확도와 응답시간을 비교합니다.
- 한국어 비중이 30% 이상이면 Solar Embedding이나 BGE-M3 같은 한국어 강세 모델로 교체해 다시 측정합니다.
임베딩은 의미를 좌표로 압축하기 때문에 도메인 특수 용어, 약어, 사내 코드명 같은 표현에서는 정확도가 떨어질 수 있습니다 [4]. 사내 결재 시스템의 "전결", 제조업 부품 코드처럼 일반 코퍼스에 잘 등장하지 않는 단어는 일반 모델 입장에서 의미가 비어 있는 좌표가 됩니다. 또한 학습 시점 이후 등장한 신조어나 신제품명은 같은 벡터 공간 안에 자리가 없어, 검색이 키워드 매칭보다 못한 경우도 보고됩니다 [5]. 모델별로 차원 수와 학습 분포가 달라, 모델을 교체할 때는 전체 인덱스를 다시 만들어야 한다는 운영 부담도 있어요 [1]. 차원 수가 1,536에서 3,072로 두 배가 되면 저장 비용과 검색 지연도 같이 늘어, 품질 향상과 비용을 함께 봐야 합니다 [1]. 업계에서는 보통 임베딩을 만능 검색기가 아니라 키워드·메타데이터 필터링과 같이 운영하는 부품으로 봅니다.
진화 방향은 세 갈래로 정리됩니다.
- OpenAI text-embedding-3가 도입한 Matryoshka 구조처럼 한 모델에서 차원 수를 256, 512, 1,024 등으로 잘라 쓸 수 있게 해 저장 비용과 품질의 균형을 잡는 방식이 확산되고 있습니다 [1]. 같은 모델로 검색 단계에서는 짧은 벡터를, 재정렬 단계에서는 긴 벡터를 쓰는 식의 운영이 가능해졌어요 [1].
- Solar Embedding·BGE-M3·카카오 Kanana-v-embedding처럼 한국어와 멀티모달 성능을 본격적으로 끌어올린 모델이 늘고 있습니다 [5][7]. 외산 모델에 한국어 문서를 그대로 넣을 때 발생하던 성능 손실 폭이 줄어들면서, 국내 기업이 자체 RAG 시스템을 구축할 때 선택지가 넓어졌어요.
- 카카오·쿠팡 사례처럼 텍스트·이미지·행동 로그를 같은 벡터 공간에서 다루는 멀티엔티티 임베딩이 검색·추천·광고에 동시에 쓰이는 흐름입니다 [7][8]. 현재 시점에서는 임베딩이 단일 검색 기능이 아니라 사내 데이터 자산을 좌표로 만드는 기반 인프라로 자리 잡고 있다고 봐도 무리가 없습니다.
- 다음 단계RAG임베딩으로 검색해 답변 정확도 향상
- 유사 개념Vector임베딩의 출력 형식이 벡터
- 기반 기술Transformer현대 임베딩 모델의 핵심 구조
- 대표 도구Vector Database임베딩을 저장·검색하는 전용 DB
- New embedding models and API updates — 회사 공식 발표 · OpenAI · 2024.01.25
- Distributed Representations of Words and Phrases and their Compositionality — 학술 논문 · NeurIPS · 2013
- Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks — 학술 논문 · EMNLP · 2019.11
- Solar Embedding-1-Large 소개 — 회사 공식 발표 · Upstage · 2024.05.16
- OmniSearchSage: Multi-Task Multi-Entity Embeddings for Pinterest Search — 학술 논문 · ACM Web Conference · 2024.04
- Vector embeddings (OpenAI 공식 가이드) — 제품 공식 문서 · OpenAI · 2024
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.