기본

Parameter

파라미터

AI 모델 분야에서 쓰이는 용어로, 학습 단계에서 모델이 데이터를 보고 직접 조정해 저장하는 내부 숫자값으로, 그 갯수가 흔히 "B(빌리언)" 단위로 표시되어 모델 크기를 가늠하는 기준이 됩니다.

쉬운 풀이

파라미터는 모델이 학습 중에 스스로 맞춰 가는 내부 다이얼 같은 숫자예요. 학습 데이터가 들어올 때마다 "이 다이얼을 조금 더 돌리면 답이 가까워진다"는 식으로 조정되고, 학습이 끝난 뒤 남은 다이얼 값들이 모델의 지식이 됩니다. 시험 공부할 때 외운 공식 노트가 시험장에 들어가는 "준비물"인 것처럼, 파라미터는 모델이 채팅창에 들어가기 전에 들고 가는 준비물이에요. 그래서 7B·70B·405B 같은 숫자가 곧 모델의 "공부량"이자 GPU에 올려야 할 짐의 크기를 알려줍니다.

한 줄 비유

사양서에 적힌 "부품 수" — 많을수록 무겁고 비쌉니다.

활용 예시

Case 1

Microsoft Phi-3 mini — 휴대폰에서 돌아가는 3.8B 모델

Microsoft Research가 2024년 4월 공개한 Phi-3 mini는 3.8B 파라미터로 학습 토큰 3.3조 개를 소화하며, MMLU 벤치마크 정답률 69%·MT-bench 점수 8.38을 기록했습니다 ^[5]. Mixtral 8x7B나 GPT-3.5에 견줄 만한 성능을 휴대폰에서 돌릴 수 있는 크기로 압축한 사례입니다. 사내 검색이나 고객 응대 챗봇처럼 외부 API 호출 없이 로컬에서 처리해야 하는 업무에 검토할 만합니다.

Case 2

HyperCLOVA X — 네이버의 한국어 특화 모델

네이버는 2023년 8월 한국어 학습량을 GPT-3 대비 약 6,500배로 늘린 HyperCLOVA X를 공개했고, 이후 100B 이상 규모를 약 40% 수준까지 경량화한 모델을 배포했습니다 ^[6]. 오픈소스 버전인 HyperCLOVA X SEED는 0.5B·1.5B·3B 세 가지 크기로 나뉘어 있어, 기관 내 한국어 문서 요약·민원 분류 같은 업무에 규모를 골라 쓸 수 있습니다.

Case 3

Meta Llama 3.1 405B — 엔터프라이즈 프론티어 모델

Meta는 2024년 7월 H100 GPU 1만 6천 장으로 15조 토큰을 학습한 405B 파라미터 모델 Llama 3.1을 공개했습니다 ^[2]. GPT-4·Claude 3.5 Sonnet과 비교되는 성능을 가중치 공개 형태로 제공했고, 단일 서버 노드에서 돌리기 위해 16비트(BF16)에서 8비트(FP8)로 양자화하는 절차를 함께 소개했습니다 ^[2]. 신약 후보 물질 탐색·법률 문서 검토처럼 정확도가 중요한 엔터프라이즈 작업에 검토 대상입니다.

Case 4

DeepSeek-V3 — MoE 구조의 활성 파라미터 분리

DeepSeek가 2024년 12월 공개한 DeepSeek-V3는 전체 671B 파라미터를 가지지만 토큰 1개당 실제로 활성화되는 파라미터는 37B에 불과합니다 ^[7]. 256개 전문가(expert) 중 8개만 골라 쓰는 Mixture of Experts, 즉 전문가 혼합(MoE) 구조 덕분에, 추론 비용은 37B급이면서 지식 용량은 671B를 들고 가는 절충안입니다. "파라미터 수가 곧 성능이자 비용"이라는 기존 공식을 MoE가 깨고 있다는 점을 보여 주는 대표 사례입니다.

참고사항

자주 쓰는 모델 옆에 "B(billion)" 숫자를 확인해 봅니다 — GPT-4, Claude, Llama, HyperCLOVA X 모두 파라미터 규모가 공개되어 있습니다.
손에 있는 GPU 메모리(GB)를 2로 나눠 봅니다 — 16비트 기준 그 숫자가 굴릴 수 있는 모델의 파라미터 한도(B)입니다.
사내 용도가 사실 확인·문서 요약 정도라면 7B~14B 모델부터 견적을 받아 봅니다 — 정확도와 비용의 균형점을 잡기 좋은 구간입니다.
405B·671B 같은 프론티어 모델은 API로만 호출하는 비용 구조를 시뮬레이션해 봅니다 — 직접 호스팅보다 합리적인 경우가 많습니다.
"활성 파라미터"와 "총 파라미터"가 함께 표기된 모델은 MoE 구조임을 확인합니다 — 추론 비용은 활성 파라미터 기준으로 계산해야 합니다.

파라미터 수가 곧 성능이라는 등식은 더는 단순하지 않습니다. Hoffmann 외(2022)는 같은 컴퓨트 예산에서도 학습 데이터를 충분히 주지 못하면 큰 모델이 작은 모델보다 못한 결과를 낸다고 보고했습니다 ^[1]. 또한 Phi-3 mini가 3.8B로 GPT-3.5 수준 성능을 낸 사례 ^[5]처럼, 학습 데이터의 질과 큐레이션이 파라미터 수만큼 중요해졌습니다. 단순히 파라미터를 늘리는 전략은 컴퓨트 비용 대비 효율이 떨어지는 구간에 들어섰고, 같은 175B·405B라도 학습 데이터 토큰 수·정제 수준·튜닝 방식이 다르면 실사용 품질이 크게 갈립니다. 모델을 비교할 때 파라미터 수 한 줄만 보는 관행이 흔들리고 있습니다.

진화 방향은 두 갈래로 나뉩니다. 하나는 Microsoft Phi 계열·HyperCLOVA X SEED 같은 소형 모델(SLM)의 데이터 품질 경쟁이고, 다른 하나는 DeepSeek-V3(671B 총·37B 활성) ^[7], Mixtral 8x7B(46.7B 총·12.9B 활성) ^[8], Switch Transformer ^[9]가 보여 준 Mixture of Experts, 즉 전문가 혼합(MoE) 구조입니다. MoE는 "지식 용량"과 "추론 비용"을 분리해 파라미터를 늘리면서도 토큰당 연산은 일정 수준으로 유지합니다. GPT-2(1.5B) → GPT-3(175B) → GPT-4(추정 1T 이상) ^[10][11]로 이어진 단순 확대 곡선은 2024년 이후 MoE와 SLM 두 방향으로 갈라졌고, 업계 표기 관행도 "총 파라미터 / 활성 파라미터 / 학습 토큰 수"를 함께 적는 쪽으로 바뀌고 있습니다. "파라미터 N개짜리 모델"이라는 한 줄 표기 자체가 이 세 숫자를 함께 보지 않으면 의미가 약해지는 시점입니다.

이 용어와의 관계

유사 개념
Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.