Prompt Caching
프롬프트 캐싱
AI 활용 분야에서 Anthropic이 2024년 8월에 공개한 API 기능으로, 같은 시스템 프롬프트나 자료를 반복해서 보낼 때 캐싱해 두고 재사용하여 비용과 지연 시간을 함께 줄이는 기술입니다.
Prompt Caching은 같은 자료를 매번 다시 읽지 말고 한 번 읽어 두고 두 번째부터는 그대로 꺼내 쓰자는 기능이에요. 예를 들어 회사 매뉴얼 50쪽을 시스템 프롬프트에 깔아 두고 '이 문서에서 휴가 규정 알려 줘'라고 묻는다면, 매뉴얼 50쪽은 매번 같으니까 LLM 서버가 그 처리 결과를 기억해 두는 거예요. 두 번째 질문부터는 매뉴얼 부분 비용이 10분의 1로 떨어지고 응답도 훨씬 빨라집니다. 스터디 노트를 매번 처음부터 정리하지 않고 지난주 정리본을 그대로 쓰는 것과 비슷해요.
RFP 표준 양식을 한 번 결재 받고 매번 같은 본문을 재인용하는 방식입니다.
Anthropic — 10만 토큰 책 Q&A에서 응답 11.5초 → 2.4초
Anthropic이 Prompt Caching 출시 공식 블로그에 공개한 자체 벤치마크입니다[1]. 10만 토큰 분량 책 한 권을 캐시 prefix로 올려두고 질문을 반복하면 첫 토큰까지 걸리는 시간(TTFT)이 11.5초에서 2.4초로 79% 단축되고, 캐시가 적중한 입력 토큰 단가는 기본가의 10% 수준까지 떨어집니다[1]. 사내 매뉴얼·법령집·재무보고서처럼 장문 자료에 반복 질의하는 RAG 워크플로에 그대로 적용됩니다.
Notion — Notion AI에 Prompt Caching 도입
Anthropic 공식 발표문에 함께 실린 1차 고객 사례입니다[1]. Notion 공동창업자 Simon Last는 "Prompt Caching으로 Notion AI를 더 빠르고 더 저렴하게 운영하면서도 품질을 유지할 수 있게 됐다"고 밝혔습니다[1][7]. 워크스페이스 문서가 시스템 컨텍스트로 누적되는 구조라 호출마다 같은 prefix가 반복되는 환경에서 단가·지연을 함께 떨어뜨리는 데 활용됐습니다.
OpenAI — 2024년 10월 GPT-4o 계열 자동 캐싱 적용
OpenAI는 2024년 10월 1일 Prompt Caching을 정식 공개하면서 GPT-4o·GPT-4o mini·o1-preview·o1-mini 및 파인튜닝 모델에 자동 적용했습니다[2]. 1,024 토큰 이상 프롬프트에서 가장 긴 공통 prefix를 찾아 캐시 적중 시 입력 토큰 단가 50% 할인과 지연 최대 80% 단축을 제공하며, 별도 API 변경 없이 기존 호출만으로 효과가 적용됩니다[2]. 국내 SaaS·챗봇 운영팀이 청구서 부담을 줄이는 1차 조치로 권장됩니다[5].
Google Gemini — 2.5 모델 묵시적 캐싱 90% 할인
Google은 Gemini 2.5 Flash·Pro부터 묵시적 컨텍스트 캐싱을 기본 활성화해, 별도 캐시 객체 생성 없이 캐시 적중 토큰을 기본 입력 단가 대비 10% 수준으로 과금합니다[3]. 2.5 Flash는 1,024 토큰, 2.5 Pro는 2,048 토큰부터 적용되며, 명시적 캐싱과 달리 저장 비용도 부과되지 않습니다[3][8]. 코드베이스 분석 에이전트, 긴 사양서를 반복해서 읽는 QA 봇처럼 prefix가 고정된 워크로드가 직접 수혜를 봅니다.
- 현재 사용 중인 시스템 프롬프트·문서 길이를 토큰 단위로 측정합니다 (1,024 토큰 미만이면 캐싱 효과가 작습니다).
- Anthropic API라면
cache_control블록을 시스템 프롬프트와 긴 문서 뒤에 명시적으로 부착합니다. - OpenAI·Gemini 2.5는 별도 설정이 필요 없으니, 변동 부분을 프롬프트 뒷부분으로 옮겨 prefix가 동일하도록 정리합니다.
- 명시적 캐싱(Gemini 컨텍스트 캐시·Anthropic 1시간 TTL)을 쓸 때는 캐시 작성 단가와 TTL을 미리 확인합니다.
- 적용 전후로 호출 수·캐시 적중률·호출당 평균 비용을 일주일간 비교해 KPI 보고서에 기록합니다.
캐시는 prefix가 글자 단위로 일치해야 적중합니다. 시스템 프롬프트 중간에 사용자명·타임스탬프를 끼워 넣으면 prefix가 달라져 캐시가 깨집니다[1]. Anthropic 기본 TTL은 5분, 옵션으로 1시간이며 1시간 캐시는 쓰기 단가가 기본 입력가의 2배입니다[1]. OpenAI 캐시는 5~10분 미사용 시 만료되고 최대 1시간이면 제거되며[2], 호출 빈도가 낮은 워크로드는 캐시 작성 비용만 더 나갈 수 있어 prefix 설계와 호출 패턴을 함께 봐야 실제 비용 절감으로 이어집니다.
진화 방향은 묵시적 캐싱과 자동화입니다. OpenAI는 1,024 토큰 이상 자동 캐싱을 기본 적용했고[2], Google Gemini 2.5 이상도 묵시적 캐싱이 기본 활성화되어 별도 객체 생성 없이 단가가 떨어집니다[3][8]. arXiv에 공개된 장기 에이전트 캐싱 평가 연구는 캐시 무효화 패턴이 에이전트 비용에 미치는 영향을 정량화해, 차세대 API가 '캐시를 깨지 않는 프롬프트 설계'를 표준 가이드로 채택하는 흐름을 보여줍니다[6]. 2025년 이후로는 prefix 분리·재사용을 전제로 한 프롬프트 아키텍처가 LLM 운영의 기본기로 자리 잡고 있습니다.
- 유사 개념Adaptive Reasoning같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Extended Thinking같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Plugin Marketplace같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
- Prompt caching with Claude — 1차 출처 · Anthropic 공식 블로그 · 2024-08-14 (2024-12-17 GA 업데이트)
- Prompt Caching in the API — 1차 출처 · OpenAI 공식 블로그 · 2024-10-01
- Context caching | Gemini API — 1차 출처 · Google AI 공식 문서
- DeepSeek API introduces Context Caching on Disk — 1차 출처 · DeepSeek 공식 공지 · 2024-08-02
- 프롬프트 캐싱: OpenAI API 비용 절감 및 성능 향상 방법 — 한국어 가이드 · 메타마인드교육
- Don't Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks — 학술 논문 · arXiv
- Prompt caching - Claude API Docs — 1차 출처 · Anthropic 공식 API 문서
이 페이지에 대한 의견을 남겨주세요
여러분의 의견은 다음 갱신에 반영됩니다.