프롬프트·AI 활용

Prompt Engineering

프롬프트 엔지니어링

AI 활용 분야에서 쓰이는 용어로, LLM에 더 좋은 답을 끌어내기 위해 지시문(프롬프트)을 설계·다듬는 작업 일체를 가리킵니다.

쉬운 풀이

교수님께 질문을 던질 때 "답해주세요" 한 줄만 보내면 두루뭉술한 답이 돌아오지만, 수업 맥락·예시·원하는 답 길이·형식까지 같이 적어두면 훨씬 쓸 만한 답이 돌아오죠. 프롬프트 엔지니어링은 그렇게 AI에게 보내는 지시문을 다듬는 작업이에요. 시험 직전에 친구한테 "이 문제 풀어줘"가 아니라 "이 문제, 중간 풀이 과정까지 보여주고 답은 마지막 줄에 따로 적어줘"라고 말하는 것과 같습니다. 같은 모델·같은 자료를 써도 묻는 방식만 바꿔도 결과 품질이 달라지기 때문에, AI를 일·공부에 본격적으로 쓰려는 사람이라면 가장 먼저 익혀야 하는 기본기예요.

한 줄 비유

RFP에 표준 양식과 평가 기준을 함께 끼워 넣는 작업입니다.

활용 예시

Case 1

OpenAI GPT-3 논문 — Few-shot 예시가 수학 정답률을 두 배로

2020년 OpenAI 연구진이 발표한 GPT-3 논문은 모델 파라미터를 그대로 두고 프롬프트에 예시 몇 개를 끼워 넣는 것만으로 성능이 크게 오른다는 사실을 정량화했습니다 ^[3]. 같은 문제에 대해 예시 없이 묻는 Zero-shot, 한 개를 보여주는 One-shot, 여러 개를 보여주는 Few-shot의 정답률 격차를 30개가 넘는 벤치마크에서 비교했고, 프롬프트 구조 자체가 별도의 학습 없이 성능을 좌우할 수 있다는 점을 보였습니다 ^[3]. 이후 Anthropic·OpenAI 공식 가이드 모두 Few-shot을 표준 기법으로 명시하고 있습니다 ^[1].

Case 2

Google Brain Chain-of-Thought — "단계별로 생각하라" 한 줄로 수학 풀이

2022년 Google Brain 연구진이 발표한 Chain-of-Thought(CoT) 논문은 프롬프트에 "step by step으로 풀어달라"는 지시와 풀이 과정 예시를 함께 주면 거대 모델의 수학·논리 정답률이 급격히 오른다는 점을 보였습니다 ^[4]. PaLM 540B 모델에 8개 풀이 예시를 붙인 CoT 프롬프트를 적용한 결과, 초등 수준 수학 문장제(GSM8K) 정답률이 표준 프롬프트 대비 큰 폭으로 개선됐고 당시 최고 성능을 기록했습니다 ^[4]. 이 한 줄짜리 기법은 이후 모든 추론 프롬프트의 기본 옵션이 됐습니다 ^[2].

Case 3

Morgan Stanley — 자문 인력 98%가 매일 쓰는 사내 어시스턴트

Morgan Stanley Wealth Management는 OpenAI와 협업해 GPT-4 기반 사내 어시스턴트 AI @ Morgan Stanley Assistant를 구축했습니다 ^[5]. 자문 인력과 프롬프트 엔지니어가 평가(Eval) 프레임워크 위에서 응답의 정확성·일관성을 등급화하며 프롬프트를 다듬었고, 답변 가능한 문서 범위를 7,000개 질문에서 10만 건 문서 코퍼스로 확장했습니다 ^[5]. 자문팀의 일상 도구로 자리 잡으면서 사내 자료 활용도가 급격히 올라갔습니다 ^[5].

Case 4

서울경제신문 AI LINK — 기자 6명, 25년차 노하우를 300개 프롬프트로

서울경제신문은 정규 기자 2명과 인턴 4명으로 Amazon Bedrock 위에 4개 AI 서비스를 운영하고 있습니다 ^[6]. 25년차 기자의 도메인 지식을 300개 이상의 프롬프트로 정리하고 5계층 레이어 구조로 "기사 제목 추천" 같은 자판기형 프로젝트를 양산했습니다 ^[6]. 환각 방지를 위해 입력 제한·외부 지식 차단·에디터 검수의 3중 구조를 두었고, 1년 동안 발행한 기사 2,500건 중 환각·오보가 0건이었습니다 ^[6].

참고사항

결과물의 합격 기준을 한 줄로 먼저 정의합니다 (예: "5문장 이내, 숫자 누락 없음, 출처 인용 포함").
프롬프트에 명령·맥락·입력·출력 형식 네 가지 구성 요소를 빠짐없이 적습니다 ^[1].
좋은 출력 예시 2~3개를 본문에 붙여 Few-shot으로 모델에 학습 맥락을 줍니다 ^[1][3].
"단계별로 생각한 뒤 답하라"는 한 줄을 추가해 사고 과정을 유도합니다 ^[4].
자주 쓰는 프롬프트는 사내 문서에 표준 양식으로 저장하고, 분기별로 결과 품질을 점검합니다 ^[6].

프롬프트 엔지니어링은 같은 입력이 매번 다른 결과를 낼 수 있어 과학적 재현성이 약하다는 비판이 있습니다. 워싱턴대의 셰인 스타이너트-트렐켈드 교수는 "프롬프트 엔지니어링은 과학이라기보다 곰을 여러 방법으로 찔러보는 일에 가깝다"고 지적했고, 와튼스쿨의 에단 몰릭 교수는 모델 성능이 좋아질수록 정교한 프롬프트의 한계 효용은 줄어든다고 보았습니다 ^[7]. 모델 세대가 바뀔 때마다 기존 프롬프트의 효용이 떨어지는 점도 운영 부담입니다. 실제로 OpenAI의 o1·o3, Anthropic의 Claude 4처럼 내부 추론(Chain-of-Thought)을 모델이 스스로 수행하는 추론 모델이 등장하면서 사용자가 직접 "단계별로 생각하라"고 적어 줄 필요성이 줄어드는 흐름이 관찰됩니다 ^[2]. 길게 짠 프롬프트가 오히려 모델의 자체 추론을 방해하기도 해, OpenAI는 추론 모델에는 지시문을 짧고 명확하게 두라고 가이드합니다 ^[9].

진화 방향은 두 갈래입니다. 한쪽에서는 CO-STAR(Context·Objective·Style·Tone·Audience·Response) 같은 프레임워크와 Anthropic Prompt Library·OpenAI Cookbook 같은 검증된 템플릿 자산이 빠르게 누적되고 있어 ^[1][8], 단발성 프롬프트에서 평가(eval) 기반 시스템 프롬프트 운영으로 무게 중심이 옮겨가는 중입니다. Morgan Stanley는 일일 회귀 테스트와 번역 평가를 도입해 프롬프트를 제품 자산처럼 관리하고 있고 ^[5], 서울경제신문은 도메인 지식을 시스템 프롬프트에 적재해 인턴이 교체돼도 품질이 유지되는 운영 모델을 만들었습니다 ^[6]. 다른 한쪽에서는 단순 프롬프트 작성을 넘어 "맥락 공학(Context Engineering)" — 즉 RAG·메모리·도구 호출까지 묶어 모델이 보는 컨텍스트 전체를 설계하는 작업으로 영역이 확장되고 있습니다 ^[1][2].

흐름

2020

GPT-3 Few-shot

예시 몇 개만 보여줘도 새 과제를 푸는 능력을 입증했습니다.

2022

Chain of Thought

단계별 사고 과정을 유도하자 추론 정확도가 크게 올랐습니다.

2023

System Prompt 표준화

역할·규칙을 분리한 시스템 프롬프트가 업계 표준이 됐습니다.

2024

Meta Prompting

프롬프트를 짜는 프롬프트로 자동 최적화가 확산됐습니다.

2025—

Vibe Engineering

자연어 지시만으로 결과를 끌어내는 흐름이 자리잡고 있습니다.

이 용어와의 관계

기반 기술
System PromptAI의 역할·규칙을 정하는 핵심 구성요소입니다
유사 개념
Few-shot예시로 원하는 결과를 유도하는 대표 기법입니다
유사 개념
Chain of Thought단계별 사고로 추론 품질을 끌어올립니다
다음 단계
Vibe Coding구조 대신 자연스러운 대화로 결과를 만들어냅니다
대표 도구
Prompt Library검증된 프롬프트를 저장·재사용하는 도구입니다

Prompt Engineering vs Fine-tuning

Prompt EngineeringFine-tuning

접근 방식입력 문장 설계모델 가중치 재학습

비용낮음 (텍스트만)높음 (GPU·데이터)

반복 속도즉시 수정 가능재학습 필요

지식 위치프롬프트 외부모델 내부

쓰는 곳범용 과제·실험도메인·톤 특화