모델·서비스

Fireworks AI

파이어웍스

AI 인프라 분야에서 미국 Fireworks AI가 2022년에 창업해 운영하는 오픈모델 추론 서비스로, Llama·Mistral·Qwen 같은 모델을 자체 최적화 엔진으로 빠르고 저렴하게 호출할 수 있게 해줍니다.

쉬운 풀이

Fireworks AI는 가중치가 공개된 AI 모델을 직접 GPU에 설치하지 않고 인터넷 주소(API)로 곧장 호출해 쓸 수 있게 해 주는 클라우드예요. 조별 과제로 챗봇을 만들려면 보통 GPU 서버를 빌리고 모델 파일을 내려받고 환경을 맞추느라 며칠을 쓰는데, Fireworks AI는 OpenAI SDK의 주소만 바꿔 끼우면 같은 코드를 곧바로 Llama 3.3 70B로 돌릴 수 있어요. PyTorch를 만들었던 팀이 차린 회사라 "오픈 모델을 자체 GPU보다 빠르고 싸게 돌려준다"가 강점으로 평가됩니다.

한 줄 비유

PyTorch 출신 팀이 차린 오픈모델 전용 추론 데이터센터의 단가 견적서.

활용 예시

Case 1

Cursor — Llama 3 70B 기반 Fast Apply, 코드 적용 속도 1,000 토큰/초 달성

회사 공식 고객 사례에 따르면 AI 코드 에디터 Cursor는 코드 제안을 한 번에 파일에 반영하는 "Fast Apply" 기능을 위해 Fireworks AI와 협력해 Llama 3 70B 기반 전용 모델을 학습시키고, 추측 디코딩(Speculative Decoding) API로 배포했습니다.^[7] 그 결과 같은 70B 모델에서 약 1,000 토큰/초(약 3,500자/초) 처리 속도를 확보해, 동일 작업에 쓰던 GPT-4 추측 편집 구성 대비 약 9배, 일반 Llama-3-70B 추론 대비 약 13배 빠른 응답을 달성했습니다.^[7] IDE처럼 "에디터에서 즉시 적용"이 핵심 UX인 도구에서 폐쇄형 GPT 대신 오픈모델 + 커스텀 추론 엔진으로 갈아끼우는 표준 레퍼런스로 인용됩니다.^[7]

Case 2

Cresta — 콘택트센터 Knowledge Assist, GPT-4 대비 추론 단가 100배 절감

회사 공식 고객 사례에 따르면 콘택트센터용 AI 플랫폼 Cresta는 상담사에게 실시간 가이드를 제시하는 Knowledge Assist 기능을 Fireworks AI 위에서 운영합니다.^[8] Cresta는 자체 모델 Ocean-1을 LoRA 어댑터로 파인튜닝한 변형들을 다중 LoRA(Multi-LoRA) 기능으로 한 엔드포인트에 묶어 배포했고, RAG(검색 증강 생성, Retrieval-Augmented Generation) 기반 작업에서 GPT-4를 능가하는 품질과 함께 단위 추론 비용을 GPT-4 대비 최대 100배 낮췄습니다.^[8] 콘택트센터 SaaS가 폐쇄형 LLM 의존에서 벗어나 자체 도메인 모델을 운영하는 방향으로 이동할 때, "Fireworks + Multi-LoRA + 오픈 베이스 모델" 조합이 단가·품질을 동시에 맞춘 사례로 보고됩니다.^[8]

Case 3

엔터프라이즈 채택 — Uber·DoorDash·Notion·Shopify·Samsung 등 1만 곳, 하루 10조 토큰 처리

회사 공식 발표에 따르면 Fireworks AI는 2025년 10월 시리즈 C 시점에 1만 곳 이상의 고객이 하루 10조 토큰을 처리하는 규모로 성장했고, 연 환산 매출(ARR)은 2억 8,000만 달러를 넘었다고 밝혔습니다.^[6] 명시적으로 공개된 프로덕션 고객에는 Uber, DoorDash, Notion, Cursor, Shopify, Samsung, Upwork, Perplexity, Sourcegraph가 포함됩니다.^[6] 같은 발표에서 폐쇄형 모델 대비 평균 15배 빠른 속도, 4배 낮은 지연, 4배 높은 동시 처리량으로 운영 워크로드를 옮기고 있다고 설명합니다.^[6]

Case 4

Microsoft Foundry 통합 — Azure 단일 엔드포인트에서 DeepSeek·Kimi·MiniMax 호출

Microsoft Azure 공식 블로그에 따르면 2026년 3월 Microsoft는 Microsoft Foundry에 Fireworks AI 추론을 퍼블릭 프리뷰로 통합했습니다.^[9] 같은 발표에 따르면 엔터프라이즈 팀은 DeepSeek V3.2, Kimi K2.5, MiniMax M2.5, OpenAI gpt-oss-120b, GLM-5 같은 오픈모델을 자체 인프라 구축 없이 Azure 단일 엔드포인트와 동일한 거버넌스·관측 도구 안에서 호출할 수 있습니다.^[9] 별도 계약·별도 인프라·별도 모니터링을 두지 않고 폐쇄형 모델과 같은 통제 라인에 오픈모델을 묶는 패턴이 만들어지면서, "Azure 계약을 이미 가진 대기업이 오픈모델 추론을 도입하는 가장 빠른 경로" 영역에서 자주 인용됩니다.^[9]

참고사항

fireworks.ai에 가입해 API 키를 발급받고, 신규 가입 무료 크레딧 $1로 결제 한도를 확인합니다.
OpenAI SDK의 base_url만 Fireworks AI로 바꿔 Llama 3.3 70B에 "안녕"이라고 한 번 호출해 봅니다.
모델 라이브러리에서 Qwen, DeepSeek V3, gpt-oss 등 후보 3종을 골라 같은 프롬프트로 응답 품질·지연을 비교합니다.
동일 워크로드를 서버리스 단가($0.90/백만 토큰)·캐시 입력 50% 할인·배치 추론 50% 할인 기준으로 표로 정리합니다.
100~500건짜리 자사 데이터셋으로 LoRA 파인튜닝을 한 번 돌리고, 다중 LoRA(Multi-LoRA)로 베이스 모델과 한 엔드포인트에 묶어 비교합니다.

오픈모델 추론 시장에서 Fireworks AI는 자체 엔진 최적화와 안정성에 강점이 있지만, 단가와 절대 속도에서는 경쟁사에 밀리는 구간이 보고됩니다. 산업 비교 분석에 따르면 2026년 시점 Llama 3.3 70B 기준 Fireworks는 백만 토큰당 $0.90 정액으로 Groq($0.59/$0.79) 대비 비싸고, 처리량에서도 Groq의 자체 LPU(언어 처리 장치, Language Processing Unit)가 같은 모델에서 400~800 토큰/초로 Fireworks·Together(83~90 토큰/초) 대비 압도적입니다.^[10][11] 모델 라인업 폭도 Together AI 200종 이상에 비해 100여 종 수준으로 좁아, "특정 비주류 오픈모델을 찾는다면 Together가 더 유리하다"는 평가가 함께 따라옵니다.^[11] 또한 폐쇄형 GPT·Claude 대비 한국어 도메인 미세 튜닝 사례 공개량이 아직 적어, 한국어 운영 수준 검증은 사용자가 직접 해야 한다는 점이 도입 진입 장벽으로 지적됩니다.

진화 방향은 자체 추론 엔진 고도화와 엔터프라이즈 채널 확장 양쪽에서 동시에 진행됩니다. 회사 공식 발표에 따르면 자체 어텐션 커널 FireAttention V4가 NVIDIA B200 GPU에서 NVFP4(4비트 부동소수점) 정밀도로 250 토큰/초 이상을 기록해, SGLang H200 대비 약 3.5배 처리량 향상을 보고했습니다.^[4] 자동 최적화 도구 FireOptimizer는 하드웨어·모델·소프트웨어 3개 레이어를 함께 튜닝해 적응형 추측 실행으로 지연을 최대 3배 단축한다고 밝혔습니다.^[4] 채널 측면에서는 2026년 3월 Microsoft Foundry 통합으로 Azure 엔터프라이즈 스택에 직접 편입됐고, 시리즈 C 자금으로 글로벌 확장, 강화학습 기반 파인튜닝, 개발자 툴체인 보강에 투자한다고 발표했습니다.^[6][9] 결과적으로 Fireworks AI는 "오픈모델을 빠르게 호출하는 곳"에서 "오픈모델로 자체 추론 스택과 자체 에이전트를 운영하는 엔터프라이즈 표준 플랫폼"으로 포지션을 옮기고 있습니다.

이 용어와의 관계

유사 개념
Together AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Groq같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Replicate같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.