기본

Pre-training

사전학습

AI 모델 학습 분야에서 쓰이는 용어로, LLM이 대량의 웹·책·코드 텍스트를 미리 읽으며 단어 사이의 통계 관계를 익히는 첫 번째 학습 단계로, 모델의 기초 언어 능력이 만들어지는 과정입니다.

쉬운 풀이

사전학습은 거대 언어 모델이 인터넷·책·코드에서 모아 둔 글을 통째로 읽으며 "어떤 단어 다음에 어떤 단어가 자주 따라오는가"를 익히는 첫 단계예요. 신입사원이 부서 발령 전에 지난 5년치 회의록과 매뉴얼을 통독하면서 회사 말투와 기본 업무 지식을 머리에 채우는 장면과 비슷합니다. 이 단계가 끝난 모델은 아직 지시를 잘 따르거나 회사 양식에 맞추지는 못하지만, 문법·세계 지식·기본 추론이 가중치 안에 새겨진 상태입니다. 사전학습이 만들어 둔 이 베이스 위에 파인튜닝과 RLHF가 얹혀야 ChatGPT나 Claude처럼 쓸 수 있는 모델이 됩니다.

한 줄 비유

신입을 정식 발령 전에 회사 전 부서 문서 5년치를 통독시키는 단계입니다.

활용 예시

Case 1

Google BERT — MLM 사전학습으로 NLP 11개 과제 SOTA 갱신

2018년 10월 구글이 arXiv에 공개한 BERT 논문은 위키피디아와 BooksCorpus 약 33억 단어 규모 코퍼스에서 마스킹 언어 모델(MLM)과 다음 문장 예측 과제로 양방향 트랜스포머를 사전학습한 결과를 보고했습니다 ^[1]. 사전학습된 BERT-Large(340M 파라미터) 가중치 위에 과제별 얇은 출력층만 얹어 파인튜닝하는 방식으로 GLUE·SQuAD·MultiNLI를 포함한 11개 NLP 벤치마크에서 당시 최고 성능(SOTA)을 동시에 갱신했습니다 ^[1]. 이 발표 이후 NLP 업계는 "처음부터 모델을 만든다"에서 "사전학습된 체크포인트를 받아 파인튜닝한다"로 표준이 옮겨갔습니다.

Case 2

OpenAI GPT-3 — 자기회귀 LM 사전학습으로 in-context learning 입증

2020년 5월 OpenAI가 공개한 GPT-3 논문은 사전학습 규모를 단숨에 키운 분기점이었습니다 ^[2]. 1,750억 파라미터 모델을 Common Crawl 필터본 60% · WebText2 22% · Books 16% · Wikipedia 3% 비중의 코퍼스에서 자기회귀 언어 모델(다음 토큰 예측) 과제로 사전학습했고, 노출된 토큰은 약 3,000억 개 수준이었습니다 ^[2]. 별도 파인튜닝 없이 프롬프트에 예시 몇 개만 끼워 넣는 few-shot 방식으로 번역·산수·SuperGLUE 같은 과제를 푸는 능력이 측정됐고, 이 베이스 모델 위에 InstructGPT가 파인튜닝과 RLHF로 얹히면서 이후 ChatGPT 계열이 파생되었습니다 ^[5]. 자체 사전학습을 직접 하지 않고 베이스 모델을 API로 받아 위에 쌓는 분업 구도가 이때 굳어졌습니다.

Case 3

Meta Llama 3.1 405B — 오픈 가중치 사전학습의 최대 규모 사례

2024년 7월 Meta가 공개한 Llama 3.1 405B는 약 15.6조 토큰 규모의 다국어 코퍼스에서 사전학습되었고, 총 연산량은 3.8×10²⁵ FLOPs, 16,000장 이상의 H100 GPU가 투입되었습니다 ^[3]. Meta는 모델 가중치와 학습 레시피를 오픈 라이선스로 공개해, 기업·연구소가 자체 데이터로 그 위에 파인튜닝을 얹는 베이스 모델 후보로 자리 잡았습니다 ^[3]. Sam Altman은 2023년 4월 GPT-4 학습 비용을 "1억 달러 이상"으로 언급했고, 업계는 차세대 프런티어 모델의 1회 사전학습 비용을 수억 달러 단위로 추정합니다 ^[6]. 사전학습 자체는 대형 클라우드 사업자나 국가 단위 컨소시엄이 주도하고, 일반 기업은 베이스 모델을 받아 파인튜닝·RAG로 적용하는 분업 구도가 표준이 되었습니다 ^[5].

Case 4

Mistral AI Mistral 7B — 7B 규모에서 13B 모델을 능가한 오픈 사전학습

2023년 9월 프랑스 Mistral AI가 공개한 Mistral 7B는 73억 파라미터 베이스 모델로, 오픈 가중치·Apache 2.0 라이선스로 사전학습 결과물을 풀었습니다 ^[4]. 회사 공식 발표와 arXiv 보고서에 따르면 같은 평가 세트에서 Llama 2 13B 베이스 모델을 모든 벤치마크에서 앞섰고, 추론·코드·수학 영역에서는 Llama 1 34B와도 비등하거나 우위였습니다 ^[4]. 사전학습 단계에서 그룹화 어텐션·슬라이딩 윈도우 같은 효율화 기법을 적용해, 더 적은 파라미터로 같은 베이스 품질을 뽑을 수 있다는 것을 보였고, 이후 국내외 스타트업이 자사 도메인 파인튜닝의 출발점으로 다수 채택했습니다 ^[4].

참고사항

자체 사전학습이 필요한지 먼저 점검합니다. 도메인 형식 조정은 파인튜닝, 지식 주입은 RAG가 우선입니다.
베이스 모델 후보 3종을 정합니다 (예: Llama 3.1 · Mistral · HyperCLOVA X).
각 후보의 사전학습 코퍼스 · 학습 토큰 수 · 라이선스를 한 줄씩 표로 정리합니다.
자체 학습이 필요하다면 Chinchilla 비율(파라미터당 약 20토큰)로 데이터 · 컴퓨트 예산을 가산정합니다.
산정 결과를 "API 호출 단가 vs 자체 사전학습 비용" 1장짜리 결재 자료로 정리합니다.

사전학습은 한 번에 수개월의 GPU 점유와 수천만~수억 달러 단위의 비용을 요구합니다 ^[3][6]. 학습 코퍼스에 들어간 편향과 저작권 분쟁 소지가 그대로 결과 모델에 새겨지고, 이후 단계에서 일부만 보정 가능합니다 ^[2]. 모델이 일단 학습되면 새 지식을 반영하기 위해 다시 사전학습을 돌리기 어렵기 때문에, 시점이 지난 정보는 RAG나 도구 호출 같은 외부 결합으로 채우는 것이 업계 표준 구성입니다 ^[5]. 또 2022년 DeepMind Chinchilla 분석에 따르면 파라미터만 키우고 데이터를 늘리지 않으면 컴퓨트를 낭비하는 구간이 길어, 무작정 큰 모델이 좋다고 보기는 어렵습니다 ^[7]. 사전학습이 결과 모델의 전체 성격을 좌우하는 단계인 만큼, 코퍼스 구성·라이선스·필터링 절차가 외부에 공개되지 않은 모델은 도입 시 검증이 까다롭다는 문제도 남아 있습니다 ^[3].

진화 방향은 세 갈래입니다.

데이터 효율화입니다. Chinchilla 이후 모델 크기보다 학습 토큰을 늘리는 방향이 표준이 됐고, Llama 3.1 405B는 컴퓨트 최적점 기준 자체 추정에 따라 설계되었습니다 ^[3][7]. Mistral 7B처럼 같은 베이스 품질을 더 적은 파라미터로 뽑는 효율화 흐름도 같은 맥락에 있습니다 ^[4].
오픈 가중치 베이스 모델의 확장입니다. Meta Llama 3.1, Mistral·Mixtral 시리즈처럼 사전학습 결과물을 공개해, 자체 학습 비용 없이 그 위에 파인튜닝과 RAG를 얹는 분업 구도가 굳어졌습니다 ^[3][4].
다국어·다영역 코퍼스 확장입니다. Llama 3.1은 8개 공식 지원 언어, Mistral은 5개 유럽 언어를 사전학습 단계에서 별도 비중으로 처리하고 있어, 비영어권 베이스 모델의 품질 격차가 좁혀지고 있습니다 ^[3][4]. 현재 시점에서는 사전학습이 "한 번 거대하게 돌리고 끝"이 아니라, 후속 파인튜닝·RLHF·RAG와 역할을 나눠 쓰는 LLM 운영 표준 부품으로 자리 잡았다고 봐도 무리가 없습니다 ^[5].

이 용어와의 관계

유사 개념
Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.