기본

Embedding

임베딩

AI 기초 분야에서 쓰이는 용어로, 문장·이미지·코드 같은 데이터를 컴퓨터가 이해할 수 있는 숫자 벡터로 변환해 의미가 비슷한 항목끼리 가깝게 배치하는 표현 방식입니다.

쉬운 풀이

임베딩은 컴퓨터가 글이나 그림의 "뜻"을 좌표로 바꿔 적어 두는 작업이에요. Spotify가 "비슷한 노래"를 추천하거나 인스타그램이 비슷한 릴스를 띄워 줄 때 쓰는 게 바로 이 원리입니다. 노래·문장·사진을 모두 같은 좌표계에 점으로 찍어 두면, 가까운 점끼리는 "비슷한 것"으로 묶을 수 있어요. 학과 자료실 책 1만 권에 각각 좌표를 적어 놓고 "내 시험 주제랑 가까운 책"부터 꺼내 보는 그림과 비슷합니다. ChatGPT가 사내 매뉴얼을 읽고 답하거나, 쿠팡이 비슷한 상품을 끌어올 때 뒤에서 돌고 있는 부품이라 알아 두면 쓸모가 많습니다.

한 줄 비유

모든 문서에 좌표를 찍어두고, 질문도 같은 좌표계에서 가까운 자리부터 꺼내는 방식입니다.

활용 예시

Case 1

OpenAI text-embedding-3 — 신모델 전환으로 비용 80% 절감, 한국어 검색 품질 대폭 개선

OpenAI는 2024년 1월 text-embedding-3-small과 3-large를 공개했습니다 ^[1]. 다국어 검색 벤치마크 MIRACL 평균 점수가 직전 모델 ada-002의 31.4%에서 54.9%로 올랐고, MTEB 평균은 61.0%에서 64.6%로 상승했습니다 ^[1]. 동시에 small 모델 가격은 1k 토큰당 $0.0001에서 $0.00002로 5분의 1 수준이 됐어요 ^[1]. RAG 파이프라인에서 임베딩 모델 교체 한 번으로 검색 품질과 운영비를 동시에 개선한 표준 사례로 인용됩니다.

Case 2

업스테이지 Solar Embedding — 한국어 검색 Ko-MIRACL +7.84점

업스테이지는 2024년 5월 Solar Embedding-1-Large를 공개했습니다 ^[5]. 자사 직전 모델 대비 영어 MTEB 4.91점, 한국어 Ko-MIRACL 7.84점이 올랐고, OpenAI text-embedding-3-large보다 한국어 검색에서 더 높은 점수를 기록했다고 공식 발표에서 밝혔습니다 ^[5]. 모델은 쿼리용과 문서용을 분리한 듀얼 구조로, 외산 모델 의존 없이 사내 문서 검색 시스템을 구축하려는 한국 기업이 우선 검토 대상으로 꼽는 모델입니다. 한국어 비중이 큰 RAG 시스템에 적합한 사례입니다.

Case 3

카카오 Kanana-v-embedding — 한국어·이미지 멀티모달 임베딩 자체 개발

카카오는 2025년 12월 한국어와 이미지를 한 벡터 공간에서 다루는 멀티모달 임베딩 모델 'Kanana-v-embedding' 개발기를 공식 기술 블로그에 공개했습니다 ^[7]. "해변에서 노는 강아지 사진 찾아줘" 같은 한국어 자연어 질의로 앨범에서 해당 사진을 찾는 시나리오를 목표로 설계됐어요 ^[7]. 같은 시기 쿠팡 엔지니어링 블로그는 카탈로그 중복 상품 매칭에 이미지·텍스트 임베딩을 함께 쓴다고 공개했고 ^[8], 네이버는 자체 LLM HyperCLOVA X 기반 검색 서비스 Cue:를 검색 결과에 통합했습니다 ^[9]. 한국 IT 대형사가 외산 임베딩 의존을 줄이며 사내 자산화하는 흐름이 자리잡고 있습니다.

Case 4

Sentence-BERT — 학계가 검증한 검색 속도 13,000배 개선

독일 TU Darmstadt의 Reimers·Gurevych는 2019년 EMNLP에서 Sentence-BERT를 발표했습니다 ^[4]. 기존 BERT로 1만 문장 중 가장 비슷한 쌍을 찾는 데 약 65시간이 걸리던 작업을, 문장 임베딩 방식으로 약 5초까지 단축했다고 보고했어요 ^[4]. 이 논문은 RAG·시맨틱 검색의 실용화를 앞당긴 핵심 레퍼런스로, 현재 Hugging Face의 sentence-transformers 라이브러리 형태로 학계와 산업 모두에서 표준으로 쓰입니다 ^[4]. 대학·연구실에서 정규 NLP 과목 실습 자료로도 폭넓게 채택돼 있습니다.

참고사항

자사 문서 100건을 골라 OpenAI text-embedding-3-small이나 Solar Embedding으로 벡터화합니다.
벡터를 pgvector·Pinecone·Chroma 등 벡터 DB에 저장합니다.
실제 사내에서 자주 들어오는 질문 10개를 골라 검색해보고, 상위 5개 결과 적중률을 기록합니다.
같은 쿼리를 키워드 검색과 임베딩 검색으로 각각 돌려 정확도와 응답시간을 비교합니다.
한국어 비중이 30% 이상이면 Solar Embedding이나 BGE-M3 같은 한국어 강세 모델로 교체해 다시 측정합니다.

임베딩은 의미를 좌표로 압축하기 때문에 도메인 특수 용어, 약어, 사내 코드명 같은 표현에서는 정확도가 떨어질 수 있습니다 ^[4]. 사내 결재 시스템의 "전결", 제조업 부품 코드처럼 일반 코퍼스에 잘 등장하지 않는 단어는 일반 모델 입장에서 의미가 비어 있는 좌표가 됩니다. 또한 학습 시점 이후 등장한 신조어나 신제품명은 같은 벡터 공간 안에 자리가 없어, 검색이 키워드 매칭보다 못한 경우도 보고됩니다 ^[5]. 모델별로 차원 수와 학습 분포가 달라, 모델을 교체할 때는 전체 인덱스를 다시 만들어야 한다는 운영 부담도 있어요 ^[1]. 차원 수가 1,536에서 3,072로 두 배가 되면 저장 비용과 검색 지연도 같이 늘어, 품질 향상과 비용을 함께 봐야 합니다 ^[1]. 업계에서는 보통 임베딩을 만능 검색기가 아니라 키워드·메타데이터 필터링과 같이 운영하는 부품으로 봅니다.

진화 방향은 세 갈래로 정리됩니다.

OpenAI text-embedding-3가 도입한 Matryoshka 구조처럼 한 모델에서 차원 수를 256, 512, 1,024 등으로 잘라 쓸 수 있게 해 저장 비용과 품질의 균형을 잡는 방식이 확산되고 있습니다 ^[1]. 같은 모델로 검색 단계에서는 짧은 벡터를, 재정렬 단계에서는 긴 벡터를 쓰는 식의 운영이 가능해졌어요 ^[1].
Solar Embedding·BGE-M3·카카오 Kanana-v-embedding처럼 한국어와 멀티모달 성능을 본격적으로 끌어올린 모델이 늘고 있습니다 ^[5][7]. 외산 모델에 한국어 문서를 그대로 넣을 때 발생하던 성능 손실 폭이 줄어들면서, 국내 기업이 자체 RAG 시스템을 구축할 때 선택지가 넓어졌어요.
카카오·쿠팡 사례처럼 텍스트·이미지·행동 로그를 같은 벡터 공간에서 다루는 멀티엔티티 임베딩이 검색·추천·광고에 동시에 쓰이는 흐름입니다 ^[7][8]. 현재 시점에서는 임베딩이 단일 검색 기능이 아니라 사내 데이터 자산을 좌표로 만드는 기반 인프라로 자리 잡고 있다고 봐도 무리가 없습니다.

흐름

2013

word2vec

구글이 단어를 벡터로 표현하는 기법 공개, 임베딩 대중화.

2018–19

BERT / Sentence-BERT

문맥 기반 임베딩으로 문장 단위 의미 비교 가능.

2022

OpenAI text-embedding

API로 고품질 임베딩 제공, RAG 붐의 기반.

2024—

멀티모달 임베딩

텍스트·이미지·오디오를 같은 벡터 공간에 매핑.

이 용어와의 관계

다음 단계
RAG임베딩으로 검색해 답변 정확도 향상
유사 개념
Vector임베딩의 출력 형식이 벡터
기반 기술
Transformer현대 임베딩 모델의 핵심 구조
대표 도구
Vector Database임베딩을 저장·검색하는 전용 DB

Dense vs Sparse Embedding

DenseSparse

벡터 구조수백~수천 차원, 대부분 값 채움수만 차원, 대부분 0

의미 포착문맥·유사도 강함정확한 키워드 매칭 강함

대표 기법BERT, OpenAI embeddingsTF-IDF, BM25, SPLADE

저장 비용높음 (전용 벡터 DB)낮음 (역색인)

쓰는 곳RAG·의미 검색전통 검색 엔진