AI 트렌드

Prompt Caching

프롬프트 캐싱

AI 활용 분야에서 Anthropic이 2024년 8월에 공개한 API 기능으로, 같은 시스템 프롬프트나 자료를 반복해서 보낼 때 캐싱해 두고 재사용하여 비용과 지연 시간을 함께 줄이는 기술입니다.

쉬운 풀이

Prompt Caching은 같은 자료를 매번 다시 읽지 말고 한 번 읽어 두고 두 번째부터는 그대로 꺼내 쓰자는 기능이에요. 예를 들어 회사 매뉴얼 50쪽을 시스템 프롬프트에 깔아 두고 '이 문서에서 휴가 규정 알려 줘'라고 묻는다면, 매뉴얼 50쪽은 매번 같으니까 LLM 서버가 그 처리 결과를 기억해 두는 거예요. 두 번째 질문부터는 매뉴얼 부분 비용이 10분의 1로 떨어지고 응답도 훨씬 빨라집니다. 스터디 노트를 매번 처음부터 정리하지 않고 지난주 정리본을 그대로 쓰는 것과 비슷해요.

한 줄 비유

RFP 표준 양식을 한 번 결재 받고 매번 같은 본문을 재인용하는 방식입니다.

활용 예시

Case 1

Anthropic — 10만 토큰 책 Q&A에서 응답 11.5초 → 2.4초

Anthropic이 Prompt Caching 출시 공식 블로그에 공개한 자체 벤치마크입니다^[1]. 10만 토큰 분량 책 한 권을 캐시 prefix로 올려두고 질문을 반복하면 첫 토큰까지 걸리는 시간(TTFT)이 11.5초에서 2.4초로 79% 단축되고, 캐시가 적중한 입력 토큰 단가는 기본가의 10% 수준까지 떨어집니다^[1]. 사내 매뉴얼·법령집·재무보고서처럼 장문 자료에 반복 질의하는 RAG 워크플로에 그대로 적용됩니다.

Case 2

Notion — Notion AI에 Prompt Caching 도입

Anthropic 공식 발표문에 함께 실린 1차 고객 사례입니다^[1]. Notion 공동창업자 Simon Last는 "Prompt Caching으로 Notion AI를 더 빠르고 더 저렴하게 운영하면서도 품질을 유지할 수 있게 됐다"고 밝혔습니다^[1][7]. 워크스페이스 문서가 시스템 컨텍스트로 누적되는 구조라 호출마다 같은 prefix가 반복되는 환경에서 단가·지연을 함께 떨어뜨리는 데 활용됐습니다.

Case 3

OpenAI — 2024년 10월 GPT-4o 계열 자동 캐싱 적용

OpenAI는 2024년 10월 1일 Prompt Caching을 정식 공개하면서 GPT-4o·GPT-4o mini·o1-preview·o1-mini 및 파인튜닝 모델에 자동 적용했습니다^[2]. 1,024 토큰 이상 프롬프트에서 가장 긴 공통 prefix를 찾아 캐시 적중 시 입력 토큰 단가 50% 할인과 지연 최대 80% 단축을 제공하며, 별도 API 변경 없이 기존 호출만으로 효과가 적용됩니다^[2]. 국내 SaaS·챗봇 운영팀이 청구서 부담을 줄이는 1차 조치로 권장됩니다^[5].

Case 4

Google Gemini — 2.5 모델 묵시적 캐싱 90% 할인

Google은 Gemini 2.5 Flash·Pro부터 묵시적 컨텍스트 캐싱을 기본 활성화해, 별도 캐시 객체 생성 없이 캐시 적중 토큰을 기본 입력 단가 대비 10% 수준으로 과금합니다^[3]. 2.5 Flash는 1,024 토큰, 2.5 Pro는 2,048 토큰부터 적용되며, 명시적 캐싱과 달리 저장 비용도 부과되지 않습니다^[3][8]. 코드베이스 분석 에이전트, 긴 사양서를 반복해서 읽는 QA 봇처럼 prefix가 고정된 워크로드가 직접 수혜를 봅니다.

참고사항

현재 사용 중인 시스템 프롬프트·문서 길이를 토큰 단위로 측정합니다 (1,024 토큰 미만이면 캐싱 효과가 작습니다).
Anthropic API라면 cache_control 블록을 시스템 프롬프트와 긴 문서 뒤에 명시적으로 부착합니다.
OpenAI·Gemini 2.5는 별도 설정이 필요 없으니, 변동 부분을 프롬프트 뒷부분으로 옮겨 prefix가 동일하도록 정리합니다.
명시적 캐싱(Gemini 컨텍스트 캐시·Anthropic 1시간 TTL)을 쓸 때는 캐시 작성 단가와 TTL을 미리 확인합니다.
적용 전후로 호출 수·캐시 적중률·호출당 평균 비용을 일주일간 비교해 KPI 보고서에 기록합니다.

캐시는 prefix가 글자 단위로 일치해야 적중합니다. 시스템 프롬프트 중간에 사용자명·타임스탬프를 끼워 넣으면 prefix가 달라져 캐시가 깨집니다^[1]. Anthropic 기본 TTL은 5분, 옵션으로 1시간이며 1시간 캐시는 쓰기 단가가 기본 입력가의 2배입니다^[1]. OpenAI 캐시는 5~10분 미사용 시 만료되고 최대 1시간이면 제거되며^[2], 호출 빈도가 낮은 워크로드는 캐시 작성 비용만 더 나갈 수 있어 prefix 설계와 호출 패턴을 함께 봐야 실제 비용 절감으로 이어집니다.

진화 방향은 묵시적 캐싱과 자동화입니다. OpenAI는 1,024 토큰 이상 자동 캐싱을 기본 적용했고^[2], Google Gemini 2.5 이상도 묵시적 캐싱이 기본 활성화되어 별도 객체 생성 없이 단가가 떨어집니다^[3][8]. arXiv에 공개된 장기 에이전트 캐싱 평가 연구는 캐시 무효화 패턴이 에이전트 비용에 미치는 영향을 정량화해, 차세대 API가 '캐시를 깨지 않는 프롬프트 설계'를 표준 가이드로 채택하는 흐름을 보여줍니다^[6]. 2025년 이후로는 prefix 분리·재사용을 전제로 한 프롬프트 아키텍처가 LLM 운영의 기본기로 자리 잡고 있습니다.

이 용어와의 관계

유사 개념
Adaptive Reasoning같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Extended Thinking같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Plugin Marketplace같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.