모델·서비스

Fine-tuning

파인튜닝

AI 모델 학습 분야에서 쓰이는 용어로, 이미 사전 학습된 거대 모델을 특정 분야의 추가 데이터로 다시 학습시켜 도메인·말투·형식에 맞게 다듬는 학습 방법입니다.

쉬운 풀이

이미 4년간 영문학을 전공한 친구에게 한 학기 동안 의학 논문만 읽혀서 의료 번역 전문가로 만드는 셈이에요. 기초 영어 실력은 그대로 두고, 의학 용어와 논문 문체만 따로 가르치는 단기 집중 교육이라고 보면 됩니다. ChatGPT 같은 범용 모델을 회사 내부 양식이나 상담 톤에 맞추고 싶을 때, 처음부터 새 모델을 만들지 않고 위에 얇은 학습 한 겹을 더 얹는 게 파인튜닝이에요. 사내 챗봇·분류기·상담 자동화 같은 좁은 업무에 모델을 길들일 때 쓰입니다.

한 줄 비유

범용 신입을 데려와 자사 양식·용어로 단기 OJT를 돌리는 절차입니다.

활용 예시

Case 1

Anthropic Claude 3 Haiku — 온라인 댓글 모더레이션 분류 정확도 +18.1%p

Anthropic은 2024년 7월 Amazon Bedrock에서 Claude 3 Haiku 파인튜닝을 프리뷰로 공개하고, 같은 해 11월 정식 출시했습니다 ^[4]. 공식 발표에 실린 자체 실험에서 인터넷 포럼의 모욕·위협·노골적 표현을 분류하는 모더레이션 작업의 정확도가 81.5%에서 99.6%로 올랐고, 쿼리당 토큰 사용량은 85% 감소했습니다 ^[4]. 같은 글에는 SK텔레콤이 통신 상담에 맞춰 Claude를 미세조정해 상담사 응답에 대한 긍정 피드백을 73% 늘렸다는 사례도 함께 실렸습니다 ^[4]. 분류·심사·상담 같은 반복 업무에 적합합니다.

Case 2

SK텔레콤 — 통신 상담 파인튜닝 긍정 피드백 +73%

SK텔레콤은 자사 통신 상담 데이터로 Claude를 파인튜닝해 상담사 보조 시스템에 통합했습니다 ^[4]. Anthropic 공식 고객 사례에 따르면 상담사 응답에 대한 긍정 피드백이 73% 증가했고, 통신 관련 작업의 핵심 KPI도 37% 개선됐다고 SK텔레콤 AI Tech Collaboration Group 부사장(Eric Davis)이 직접 밝혔습니다 ^[4]. 파인튜닝된 모델이 통화 로그에서 주제·실행 항목·요약을 뽑아내고, 복잡한 고객 문의를 단계별로 분해하는 데 쓰인다고 합니다. 국내 대기업이 자체 데이터로 외산 모델을 도메인에 맞춘 대표 사례입니다.

Case 3

OpenAI GPT-3.5 Turbo — 프롬프트 길이 최대 90% 단축

OpenAI는 2023년 8월 GPT-3.5 Turbo 파인튜닝 API를 일반 공개했습니다 ^[5]. 공식 발표에서 초기 테스터들이 좁은 영역의 작업에서 파인튜닝된 GPT-3.5가 기본 GPT-4 수준의 성능에 도달하거나 능가하는 사례를 확인했다고 밝혔습니다 ^[5]. 더 중요한 효과는 프롬프트 길이 단축으로, 길게 적어 두던 지시문을 모델 가중치에 직접 새기는 방식으로 프롬프트 길이를 최대 90%까지 줄여 API 호출 속도와 비용을 함께 낮췄다고 보고됐어요 ^[5]. 매번 같은 시스템 프롬프트를 길게 붙여 보내야 했던 분류·라우팅 파이프라인에 적합합니다.

Case 4

업스테이지 Solar — 한국어 특화 베이스 모델로 국내 파인튜닝 표준화

Upstage가 공개한 Solar 모델은 한국어 인스트럭션 튜닝을 거쳐 국내 기업이 자사 데이터로 다시 파인튜닝하는 베이스로 쓰이고 있습니다 ^[6]. 정보통신산업진흥원이 운영에 참여한 Open Ko-LLM 리더보드 상위권에는 Solar 계열 파생 모델이 다수 등재돼, 사실상 국내 한국어 LLM의 공용 출발점으로 자리 잡았다는 평가가 나옵니다 ^[6]. 자사 한국어 데이터셋만 준비돼 있으면 외주 없이도 사내 문서 톤과 맞춤법에 맞춘 도메인 모델을 만들 수 있습니다. 한국어 비중이 큰 챗봇·분류기 프로젝트에 적용 가능합니다.

참고사항

파인튜닝 대상 업무를 한 줄로 정의합니다 (예: "사내 문의를 5개 카테고리로 분류", "고객 문의 메일에 자사 톤으로 1차 답변 초안 작성").
입력·정답 쌍 데이터 50~200건을 JSONL 형식으로 정리합니다. 라벨의 일관성을 두세 명이 교차 검토해 둡니다.
베이스 모델을 정합니다. 영어 비중이 높으면 GPT-4o mini, 한국어 톤이 중요하면 Solar·Llama 계열을, 폐쇄망 운영이 필요하면 Llama·Qwen 같은 오픈웨이트 모델을 검토합니다.
OpenAI 콘솔·Amazon Bedrock·Hugging Face PEFT 중 한 곳에서 시범 학습을 돌리고, 파인튜닝 전후 정확도와 톤 일관성을 같은 검증셋으로 비교합니다.
추론 비용과 정확도 개선분을 한 장 표로 정리해 결재 라인에 공유하고, 모델 버전 갱신 주기·재학습 책임자를 함께 명시해 둡니다.

파인튜닝이 만능 해법은 아닙니다. 학습 데이터가 적거나 라벨이 정확하지 않으면 베이스 모델보다 성능이 떨어질 수 있고, 데이터에 있는 편향이 그대로 출력에 새겨집니다 ^[1]. 모델 버전이 올라갈 때마다 다시 학습해야 하는 유지보수 부담도 따라옵니다. 또 단순 지식 주입이 목적이라면 RAG(Retrieval-Augmented Generation, 검색 증강 생성), 톤이나 형식 조정 정도라면 시스템 프롬프트가 더 저렴한 선택지인 경우가 많습니다 ^[7]. OpenAI 공식 가이드도 "프롬프트 엔지니어링과 RAG로 충분히 풀리지 않을 때" 파인튜닝을 검토하라고 권합니다 ^[5]. 추론 단가는 일반 모델보다 비싼 구간이 있고, 학습 데이터에 민감 정보가 섞이면 그대로 모델에 남는 보안 이슈도 함께 검토해야 합니다 ^[4]. 업계에서는 보통 "프롬프트로 안 되는 영역만 파인튜닝"이라는 순서를 권장합니다.

진화 방향은 두 갈래입니다. 첫째는 LoRA·QLoRA 계열의 효율화로, 풀 파인튜닝의 비용을 수십~수백 분의 1로 떨어뜨리는 흐름입니다 ^[2][3]. LoRA는 학습 가능한 파라미터를 만 배까지 줄이면서도 풀 파인튜닝에 근접한 성능을 보였고, QLoRA는 4비트 양자화로 65B 모델을 단일 48GB GPU 한 장에서 학습 가능한 수준까지 비용을 끌어내렸습니다 ^[2][3]. Hugging Face PEFT 라이브러리는 LoRA·QLoRA·AdaLoRA 등을 표준 인터페이스로 묶어 오픈소스 진영의 사실상 기준이 됐습니다 ^[7]. 둘째는 클라우드 매니지드 서비스화입니다. Amazon Bedrock의 Claude 3 Haiku 파인튜닝, OpenAI의 셀프서비스 콘솔처럼 머신러닝 엔지니어 없이도 사내 데이터를 업로드해 파인튜닝 모델을 운영하는 방식이 일반화되고 있습니다 ^[4][5]. 국내에서도 Upstage Solar처럼 한국어에 특화된 베이스 모델 위에 자사 데이터로 다시 파인튜닝하는 패턴이 표준으로 자리 잡고 있어 ^[6], 외산 모델 의존을 줄이는 흐름이 함께 진행되고 있습니다. 현재 시점에서는 파인튜닝이 단발성 기술이 아니라 RAG·시스템 프롬프트와 역할을 나눠 쓰는 도메인 특화 LLM 운영의 표준 부품으로 자리 잡았다고 봐도 무리가 없습니다.

흐름

2018

BERT 사전학습→미세조정

사전학습 가중치를 다운스트림 태스크에 맞춰 재학습하는 패러다임 정착.

2020

GPT-3 Fine-tune API

OpenAI가 상용 LLM 미세조정을 API로 개방.

2022

InstructGPT·ChatGPT (RLHF)

사람 피드백 강화학습으로 지시 따르기 능력 도약.

2023

LoRA·QLoRA·PEFT 확산

저랭크 어댑터로 비용을 수십~수백 배 절감.

2024—

도메인 미세조정 표준화

Bedrock·OpenAI 콘솔로 기업이 사내 데이터를 직접 학습.

이 용어와의 관계

유사 개념
RAG지식을 모델 안에 넣을지 밖에서 가져올지의 차이
기반 기술
Pre-training사전학습된 가중치 위에 추가 학습하는 구조
다음 단계
RLHF사람 피드백으로 톤·안전성을 다듬는 후속 단계
유사 개념
Embedding도메인 표현을 학습한다는 점에서 닮음
기반 기술
LLM미세조정의 대상이 되는 베이스 모델

Fine-tuning vs RAG

Fine-tuningRAG

지식 위치모델 가중치에 내재화외부 문서에서 검색

업데이트 비용높음 (재학습 필요)낮음 (문서 교체)

최신성학습 시점에 멈춤실시간 반영 가능

출처 추적어려움문서 인용 가능

강점 영역톤·형식·도메인 패턴사실 기반 질의·사내 지식

추론 비용기본 모델보다 비쌈검색 오버헤드 발생