Training
트레이닝
AI 모델 분야에서 쓰이는 용어로, 인공지능 모델이 데이터를 입력받아 예측 오차를 줄이는 방향으로 내부 가중치를 반복해서 조정하는 학습 과정 전반을 가리키는 일반 표현입니다.
학습은 모델이 데이터를 보고 답을 맞히려 시도한 다음, 틀린 만큼 내부 숫자(가중치)를 조금씩 고쳐 가는 반복 작업이에요. 마치 모의고사 채점지를 받아 들고 틀린 문제 옆에 빨간 펜으로 표시한 뒤, 다음 시험에서 같은 실수를 안 하도록 풀이법을 조금씩 바꿔 가는 학생과 비슷합니다. 이 작업이 수조 번 반복되면 GPT나 Claude 같은 모델이 만들어지고, 한 번 끝나면 그 가중치는 사용자가 질문할 때마다 같은 상태로 유지돼요. 학습이 한 학기 전체 공부라면, 추론은 그 공부를 끝낸 학생이 실제 시험을 보는 한 시간입니다.
신입을 채용해 OJT까지 마치는 전 과정이 학습이라면, 추론은 그 직원이 매일 일하는 모습입니다.
Meta Llama 3.1 405B — H100 16,384장 클러스터에서 15조 토큰 사전학습
Meta는 2024년 7월 공식 발표에서 Llama 3.1 405B를 H100 80GB 16,384장 규모 클러스터로 약 15조 토큰에 대해 사전학습했다고 보고했습니다 [4]. 동기식 분산 학습 특성상 GPU 1장만 멈춰도 전체 학습이 재시작되는데, 후속 보고서에 따르면 평균 3시간에 1회 장애가 발생했고 누적 7.7M GPU-시간이 투입됐습니다 [4]. 한 번의 프런티어 모델 사전학습이 왜 수천만 달러 단위 인프라 투자로 직결되는지 보여주는 사례이고, 자체 학습 대신 베이스 모델을 받아 파인튜닝하는 분업 구도가 굳어진 배경이기도 합니다.
네이버 HyperCLOVA X — 한국어 6,500배 학습량으로 한국어 특화 모델 구축
뉴시스(2023년 2월) 보도와 네이버 공식 발표에 따르면 네이버는 HyperCLOVA X를 ChatGPT 대비 한국어를 약 6,500배 더 많이 학습한 데이터셋으로 사전학습했습니다 [5]. 한국어 코퍼스 비중을 끌어올린 결과 국내 공공·금융 도메인 응답 품질이 영어권 베이스 모델 대비 안정적이라는 평가가 나왔고, 후속 모델 HyperCLOVA X THINK 단계에서는 검증 가능한 보상 기반 강화학습(RLVR)으로 한국어 KCSAT STEM 등에서 유사 규모 모델 대비 적은 학습 컴퓨트로 동등 이상의 성적을 보고했습니다 [5]. 한국어 특화 사내 챗봇·민원 응대 시스템을 검토하는 조직에 직접 인용 가능한 1차 자료입니다.
엔터프라이즈 LoRA 파인튜닝 — 풀파인튜닝 대비 비용 80~90% 절감
중견 기업이 사내 문서 응답용으로 13B 규모 오픈 모델을 다듬을 때, 모든 가중치를 다시 학습하는 풀파인튜닝은 약 2만 달러까지 들지만 저랭크 어댑터 방식인 LoRA는 2,000~5,000달러 수준에서 끝납니다 [6]. QLoRA를 결합하면 24GB 메모리의 소비자급 GPU 단일 장비에서도 학습이 가능하고, 소~중간 규모 지시 데이터에서는 풀파인튜닝과 성능 격차가 거의 측정되지 않는다는 보고가 나왔습니다 [6]. 사내 견적·계약 검토 보조 모델이나 도메인 특화 챗봇처럼 좁은 영역을 빠르게 다듬어야 하는 작업에 표준 옵션으로 자리 잡고 있습니다.
OpenAI InstructGPT — RLHF 3단계 절차의 학술적 정형화
Ouyang 외(2022년 3월) arXiv 논문은 SFT(지도학습 파인튜닝) → 보상모델 학습 → PPO 최적화 3단계로 사람 선호도 데이터를 모델에 반영하는 절차를 정형화했고, 1.3B 파라미터의 InstructGPT 모델이 175B 파라미터 GPT-3보다 사람 평가에서 선호된다는 결과를 보고했습니다 [1]. 사전학습이 끝난 모델을 비교적 소량의 사람 라벨(약 1만 3,000건 SFT 데이터, 약 3만 3,000건 선호도 데이터)로 추가 학습하는 방식이라, 회사 입장에서는 사전학습 비용 없이 응답 톤과 거절 기준만 정책 변경분으로 반영할 수 있습니다 [1]. 사내 챗봇의 답변 톤 표준화나 안전성 보강 단계에서 직접 참조 가능한 절차입니다.
- 우리 업무에 필요한 게 사전학습인지, 파인튜닝인지, 프롬프트 조정인지 한 줄로 정리합니다.
- 모델 후보 3종의 학습 토큰 수와 컷오프 시점을 표 한 장으로 비교합니다.
- 사내 문서 약 1,000건으로 LoRA 파인튜닝 견적을 외주사 1곳에 받아 봅니다.
- RLHF가 필요한 톤·거절 기준 사례 20건을 사내에서 수집합니다.
- 추론 단가와 학습 일회성 비용을 분리해 12개월 운영 비용을 시뮬레이션합니다.
학습 컴퓨트는 빠르게 무거워지고 있습니다. Stanford AI Index와 외신 보도에 따르면 GPT-4 사전학습 1회에만 약 7,800만~1억 달러가 들었고, OpenAI 알트먼은 같은 비용을 1억 달러 이상으로 직접 언급했습니다 [7]. xAI는 H100 약 10만 장 규모 Colossus 클러스터를 122일 만에 구축한 뒤 20만 장 규모로 확장 중이라고 발표했고, Anthropic은 AWS와 최대 5GW 규모 컴퓨트 계약을 체결했습니다 [8]. 프런티어 모델 학습은 단일 기업이 단독으로 부담하기 어려운 규모로 올라섰고, 학습 코퍼스의 저작권·편향 검증, 동기식 분산 학습의 장애 재시작 비용, 학습 후 새 지식을 반영하기 어려운 정적 특성 등이 동시에 부담으로 남아 있습니다 [4].
한편 학습 방식은 위아래로 다층화되고 있습니다. DeepMind Chinchilla 분석은 파라미터와 토큰을 같은 비율로 키워야 컴퓨트가 최적이라는 비율(약 20:1)을 제시했고, Llama 3.1·Mistral 등 후속 모델은 그 비율 안에서 더 작은 모델을 더 오래 학습시키는 방향으로 옮겨갔습니다 [4]. 위쪽 단계에서는 RLHF가 RLAIF(AI 피드백 기반 강화학습)나 검증 가능한 보상 기반 RLVR로 진화해 사람 라벨링 비용을 줄이고 있고, 아래쪽에서는 LoRA·QLoRA 같은 저랭크 어댑터, Apple Foundation Models adapter 같은 온디바이스 추가 학습 도구가 일반화돼 사용자 기기 안에서도 일부 학습이 돌아가기 시작했습니다 [6]. 사전학습은 소수의 거대 사업자가, 파인튜닝·정렬 학습·개인화 학습은 응용 기업과 단말이 나눠 맡는 구조가 현재 시점에서 표준에 가까운 모습이며, 회사 입장에서 "어느 단계까지 자체 학습을 가져가고 어느 단계부터 외부 베이스 모델을 받아 위에 얹을 것인가"가 LLM 도입 의사결정의 첫 갈림길이 되고 있습니다 [4][6].
- 유사 개념Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
- Training Compute-Optimal Large Language Models (Chinchilla) — 학술 논문 · arXiv (Hoffmann 외) · 2022
- Training language models to follow instructions with human feedback (InstructGPT) — 학술 논문 · arXiv (Ouyang 외) · 2022
- The Llama 3 Herd of Models / Llama 3.1 발표 — 회사 공식 문서 · Meta AI · 2024
- HyperCLOVA X THINK Technical Report — 학술 논문 · arXiv · 네이버 클라우드 · 2025
- LoRA Without Regret — 권위 기술 보고 · Thinking Machines Lab · 2025
- NVIDIA Spectrum-X Networking Accelerates xAI Colossus — 회사 공식 발표 · NVIDIA · 2024
- Anthropic and Amazon expand collaboration for up to 5GW of compute — 회사 공식 발표 · Anthropic · 2025
- Foundation Models adapter training — 회사 공식 문서 · Apple Developer · 2025
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.