모델·서비스

Groq

그록

AI 인프라 분야에서 미국 Groq Inc.가 2016년에 창업해 자체 설계한 LPU 추론 칩으로, Llama·Mistral 같은 오픈 모델을 초고속으로 실행하는 클라우드 추론 서비스를 함께 운영합니다.

쉬운 풀이

Groq는 ChatGPT 같은 거대 언어 모델이 답을 빠르게 내놓도록 도와주는 전용 칩(LPU)과 그 칩을 묶은 클라우드 서비스입니다. 같은 모델이라도 일반 GPU 서버보다 답이 몇 배 빠르게 떠올라서, 사용자가 '전송'을 누르고 1초도 안 돼 글이 완성되는 체감이에요. 시험 기간에 같은 강의 자료를 도서관 복사기 대신 인쇄소 윤전기로 한 번에 찍어내는 느낌이라고 보면 됩니다. 음성 비서나 실시간 상담 챗봇처럼 '지연 시간이 곧 사용 경험'인 서비스에서 자주 거론되니, 추론 인프라 후보를 비교할 때 알아 두면 좋습니다.

한 줄 비유

같은 보고서를 검토자가 줄 서서 처리하지 않고 컨베이어 벨트로 흘려보내는 라인입니다.

활용 예시

Case 1

GroqCloud — Llama 3.3 70B를 초당 276토큰으로 서빙

독립 벤치마크 사이트 Artificial Analysis 기준 GroqCloud는 Llama 3.3 70B를 초당 276토큰, 첫 토큰까지 0.3~0.9초 안에 응답합니다.^[5] 같은 모델을 일반 GPU 클라우드에서 돌리면 보통 초당 30~80토큰 수준이라, 사용자가 '전송' 버튼을 누르고 답이 다 떠오를 때까지 1초 안쪽으로 끝납니다. 회의 중 실시간 요약, 상담 챗봇처럼 응답 지연이 매출에 직결되는 워크로드에 적합합니다.

Case 2

한국 삼성전자 파운드리 — 차세대 LPU 4나노 양산

뉴스핌 2026년 4월 보도 기준 삼성전자는 미국 텍사스 테일러 4나노 공장에서 Groq의 차세대 LPU를 하반기부터 양산하기로 공식화했습니다.^[6] 추론 전용 칩 양산을 국내 파운드리가 맡는 첫 대형 레퍼런스로, 국내 반도체 업계에서는 엔비디아 H100에 쏠려 있던 AI 인프라 발주를 분산하는 신호로 해석합니다. AI 인프라 도입 보고서를 쓰는 한국 기업·기관에서 직접 참조할 수 있는 사례입니다.

Case 3

HUMAIN(사우디) — 국가 추론 인프라에 LPU 배치

2025년 5월 사우디 국부펀드(PIF) 산하 HUMAIN은 Groq에 15억 달러를 투자해 자국 데이터센터에 LPU를 배치하기로 했습니다.^[4] 같은 인프라에서 OpenAI의 오픈 모델 gpt-oss-120B는 초당 500토큰 이상, gpt-oss-20B는 1,000토큰 이상으로 운영된다고 양사가 발표했습니다.^[4] 데이터 국외 반출 없이 자국 내에서 추론을 처리해야 하는 공공·금융 도메인의 인프라 의사결정자가 참고할 만한 사례입니다.

Case 4

에이전트·음성 워크로드 — Speculative Decoding으로 1,665 토큰/초

Groq 공식 블로그에 따르면 Llama 3.3 70B에 speculative decoding(투기적 디코딩, 작은 모델이 미리 답안을 제안하고 큰 모델이 검증하는 가속 기법)을 적용해 단일 사용자 기준 1,665토큰/초를 기록했고, 이는 자사 표준 엔드포인트의 6배, 타사 중앙값의 20배 수준입니다.^[7] 에이전트가 도구 호출 결과를 받고 다시 추론하는 루프를 여러 번 도는 워크로드에서는 한 호출당 200ms를 줄이면 전체 응답이 누적으로 짧아집니다. 실시간 음성 비서, 멀티스텝 에이전트 백엔드의 추론 단계 교체 후보로 검토됩니다.

참고사항

console.groq.com에서 무료 API 키를 발급받고 Llama 3.3 70B를 플레이그라운드에서 호출해 첫 토큰까지 걸리는 시간(TTFT)을 캡처합니다.
같은 프롬프트를 Groq와 평소 쓰던 OpenAI/Anthropic API에 동시에 보내 응답 시간·완성 토큰 수·체감 품질을 표 한 장에 나란히 정리합니다.
챗봇·요약 워크플로 중 사용자가 '느리다'고 느낀 구간을 골라 Groq 엔드포인트로 교체해 응답 시간 변화를 사내 모니터링 대시보드에서 측정합니다.
에이전트 루프(검색 → 추론 → 도구 호출 → 추론)가 있다면 추론 단계만 Groq로 옮겨 한 사이클 전체 지연을 다시 잰 뒤 GPU 기반 대비 단축 비율을 기록합니다.
groq.com/pricing에서 모델별 토큰 단가를 확인해 월 트래픽 기준 비용 시나리오를 만들고, 기존 GPU 클라우드 청구서와 함께 사내 견적 자료로 정리합니다.

공식 문서 기준 LPU는 SRAM을 칩 위에 올려 속도를 얻는 구조라, 칩 한 장당 메모리 용량이 GPU보다 작고 큰 모델을 돌리려면 여러 칩을 묶어야 합니다.^[1] 즉 단일 카드 단가는 낮아도 대형 모델 서빙에 필요한 총 칩 수가 늘어, 학습이나 초거대 모델 풀파인튜닝 같은 메모리 집약 워크로드에는 적합하지 않다는 게 업계 평가입니다. 또한 지원 모델 풀이 OpenAI·Anthropic의 폐쇄형 API만큼 넓지 않아, 자체 파인튜닝한 비표준 아키텍처를 그대로 올리기는 어렵습니다. 도입 검토 단계에서는 '어떤 모델을, 어느 컨텍스트 길이로, 어떤 SLA에서 돌릴지'를 먼저 확정하고 LPU 적합도를 따져 보는 흐름이 일반적입니다. 데이터 거버넌스 요건이 엄격한 한국 기업은 GroqCloud 멀티 테넌트 외에 전용 배포·온프레미스 옵션이 마련되는 시점도 함께 확인합니다.

진화 방향은 두 갈래로 정리됩니다.

공정 미세화입니다. 1세대 14나노 LPU에서 차세대 4나노로 옮겨가며 토큰당 전력·단가를 더 낮추고 있고, 2026년 하반기부터 삼성전자 테일러 공장에서 차세대 LPU 양산이 시작됩니다.^[1][6] 추론 칩 양산을 미국 외 파운드리가 맡는 첫 대형 사례라 글로벌 공급망 관점에서도 의미가 큽니다.
글로벌 추론 인프라 확장입니다. 2025년 사우디 HUMAIN과의 15억 달러 파트너십에 이어 자체 데이터센터를 '신흥 하이퍼스케일러'로 키우겠다고 발표했고, OpenAI·Meta 같은 모델 공급자가 추론 위탁처를 다변화하는 흐름과 맞물려 LPU 진영의 점유율 확장 시도가 이어지고 있습니다.^[4][8] 학습 시장보다 추론 시장이 빠르게 커지는 흐름에서, 전용 칩 진영의 대표 사례로 보는 시각이 일반적입니다.

이 용어와의 관계

유사 개념
Fireworks AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Together AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Replicate같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.