모델·서비스

Kimi K2

키미

AI 모델 분야에서 중국 Moonshot AI가 2025년에 공개한 Kimi 시리즈 2세대 LLM(Large Language Model, 거대 언어 모델)으로, 1M 컨텍스트와 추론·에이전트 작업에 강점을 가진 오픈웨이트 모델입니다.

쉬운 풀이

Kimi K2는 중국 회사 문샷AI가 만든 두 번째 세대 대형 언어 모델이에요. 첫 모델 Kimi 1.0(2023)이 긴 문서를 한 번에 읽는 데 강했다면, 1.5(2024)에서 200만 한자 컨텍스트로 늘었고, K2(2025)에서는 가중치 파일 자체를 인터넷에 공개해 누구나 내 서버에 올려 쓸 수 있게 했습니다. 다른 회사 모델 대부분은 회사 안에만 두고 API로만 빌려주는데, K2는 학교 도서관 책을 통째로 복사해 가도록 허락한 셈이에요. 한국 개발자가 챗GPT·Claude 대신 가격이 5~10배 싼 모델을 찾을 때 이름이 자주 거론됩니다.

한 줄 비유

설계도까지 함께 공개된 1조 파라미터 외주 견적서.

활용 예시

Case 1

Moonshot AI 공식 — 오픈웨이트 1조 파라미터 K2 공개

2025년 7월 11일 Moonshot AI는 깃허브와 허깅페이스에 Kimi K2의 베이스(Base) 모델과 인스트럭트(Instruct) 모델 가중치를 모두 공개했습니다 ^[1]. SWE-bench Verified(소프트웨어 엔지니어링 실제 깃허브 이슈 해결 평가) 에이전틱 코딩 단일 시도 기준 해결률 65.8%로, 같은 비교군에서 DeepSeek-V3-0324(38.8%)와 Qwen3-235B(34.4%)를 모두 앞섰습니다 ^[1][2]. 라이선스는 수정 MIT로 상업적 재배포가 허용됩니다 ^[1]. 자체 모델 학습 예산이 없는 조직이 추론 인프라만 갖추면 GPT-4.1·Claude Sonnet 4와 같은 벤치마크 선상에서 비교 검토할 수 있는 시작점입니다.

Case 2

한국 — 한국경제·MBC 보도와 개발팀 도입 검토

한국경제는 2025년 7월 20일 자 지면에서 K2를 "딥시크급 성능"으로 보도했고, 네이처가 코딩 분야와 '크리에이티브 라이팅 vs 벤치마크' 항목에서 1위라고 분석한 점을 인용했습니다 ^[3]. MBC도 같은 시기 "딥시크급 충격" 평가로 보도했습니다 ^[4]. 한국 내 공식 도입 사례가 권위 매체로 검증된 건은 2026년 6월 시점에서는 제한적이지만, OpenRouter·Cursor·Windsurf 등 글로벌 개발 도구가 K2 API를 연동하고 있어 국내 개발팀도 가격 비교 대상으로 즉시 활용 가능합니다 ^[5][6]. Claude Sonnet 4·GPT-4.1 단가가 부담스러운 1인 개발자·소규모 스타트업이 PoC 단계에서 가장 먼저 꺼내는 한국 사용처입니다.

Case 3

엔터프라이즈 — vLLM·SGLang 사내 자체 호스팅

공식 배포 가이드는 vLLM, SGLang, KTransformers, TensorRT-LLM 네 가지 추론 엔진을 권장합니다 ^[1][6]. vLLM 배포 시 --enable-auto-tool-choice와 --tool-call-parser kimi_k2 플래그로 네이티브 도구 호출(tool call)이 동작하고, SGLang의 RadixAttention은 시스템 프롬프트와 도구 정의가 반복되는 에이전트 세션에서 오버헤드를 줄입니다 ^[6]. 128K 컨텍스트 FP8 가중치 기준 최소 배포 단위는 H200 또는 H20 GPU 16장 클러스터로 안내됩니다 ^[6]. 사내 보안 정책상 외부 API 호출이 어려운 금융·공공기관에서 폐쇄망 자체 호스팅 검토 대상으로 들어가는 사용처입니다.

Case 4

글로벌 시장 — 알리바바 투자와 K2 Thinking 후속작

알리바바는 2024년 2월 Moonshot AI 10억 달러 규모 펀딩 라운드를 주도해 약 36% 지분을 확보했고 ^[7], CNBC는 2025년 11월 K2 Thinking 공개 보도에서 문샷을 "알리바바 후원 스타트업"으로 지칭했습니다 ^[8]. VentureBeat는 같은 시점 K2 Thinking이 일부 에이전틱 벤치마크에서 GPT-5·Claude Sonnet 4.5와 동등 수준 결과를 냈다고 분석했고 ^[10], 블룸버그·SCMP는 2026년 2월 문샷이 100~120억 달러 가치로 신규 펀딩 라운드를 추진 중이라고 보도했습니다 ^[7][9]. 미국의 대중국 반도체 제재 흐름 속에서 중국 AI 모델이 글로벌 개발자 생태계로 진출하는 통로 역할을 하는 사용처입니다.

참고사항

깃허브 MoonshotAI/Kimi-K2 리포지토리에서 README와 기술 보고서(arXiv:2507.20534)를 받아 모델 카드·벤치마크 표를 확인합니다.
허깅페이스 moonshotai/Kimi-K2-Instruct 카드에서 추론 권장 사양과 FP8 가중치 포맷을 점검하고, 사내 GPU 보유 현황(H200·H20·H100)에 맞춰 배포 가능 여부를 표로 정리합니다.
platform.moonshot.ai에서 OpenAI/Anthropic 호환 API 토큰 가격을 확인한 뒤, GPT-4.1·Claude Sonnet 4와 입력·출력 단가를 1:1로 비교해 월 사용량 기준 예상 비용을 산출합니다.
SWE-bench Verified·LiveCodeBench v6 점수표를 사내 주요 모델 후보(GPT-4.1·Claude Sonnet 4·Gemini 2.5 Pro)와 한 장표에 매핑하고, 코딩·에이전트 워크로드 우선순위를 표시합니다.
vLLM 또는 SGLang 중 하나로 1주 PoC 일정을 잡아 --tool-call-parser kimi_k2 플래그로 네이티브 도구 호출을 검증하고, 같은 워크로드를 Claude·GPT와 동일 프롬프트로 돌려 응답 품질·지연 시간 차이를 기록합니다.

K2의 한계는 공식 보고서에도 분명히 적혀 있습니다. SWE-bench Verified 단일 시도 65.8%는 Claude Sonnet 4(72.7%)와 Claude Opus 4(72.5%)에 못 미치고, MMLU·GPQA 일부 항목에서 Claude Opus 4가 더 높습니다 ^[1][2]. 한국어 최적화 모델로 검증된 벤치마크는 공식 기술 보고서에 포함돼 있지 않아, 국내 도메인에 투입하려면 KMMLU·HAE-RAE 같은 한국어 평가로 별도 검수가 필요합니다. 128K 컨텍스트 FP8 기준 최소 배포 단위가 H200/H20 GPU 16장 클러스터라는 점도 중소 조직에는 부담입니다 ^[6]. 추론 토큰 단가 자체는 미국 폐쇄형 모델보다 낮지만, 자체 호스팅 진입 장벽은 여전히 높은 편으로 평가됩니다.

진화 방향은 컨텍스트 확장·추론 강화·평가 가치 상승 세 갈래입니다.

2025년 9월 K2-Instruct-0905로 컨텍스트가 128K에서 256K로 확장됐고 코딩 성능이 개선됐고 ^[3], 같은 해 11월 K2 Thinking에서 1M 토큰까지 늘었습니다 ^[8].
K2 Thinking은 추론·에이전트 능력을 강화한 후속 모델로, CNBC와 VentureBeat 보도에 따르면 일부 에이전틱 벤치마크에서 GPT-5·Claude Sonnet 4.5와 동등 수준 결과를 냈고, 일론 머스크가 K2 Thinking을 두고 "인상적"이라고 X에 적었다는 보도도 함께 나왔습니다 ^[8][10].
펀딩 라운드 규모와 가치 평가도 2024년 25억 달러에서 2026년 100억 달러대로 빠르게 상승했고 ^[7][9], 알리바바 후원과 미국 반도체 제재 흐름이 겹치는 지정학적 맥락에서 K2 시리즈는 향후에도 오픈웨이트 라인을 유지할 가능성이 높다고 업계에서는 보고 있습니다 ^[10].

이 용어와의 관계

유사 개념
Fireworks AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Together AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Groq같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.