모델·서비스

Llama

라마

AI 모델 분야에서 Meta가 2023년부터 공개해 온 오픈웨이트 LLM(Large Language Model, 거대 언어 모델) 시리즈로, 가중치를 공개해 누구나 다운로드해 직접 운영할 수 있게 한 대표적 오픈모델군입니다.

쉬운 풀이

가중치(모델이 학습으로 정리한 숫자 표)를 누구나 내려받을 수 있도록 Meta가 공개한 대형 언어 모델 시리즈예요. 학교 도서관에서 전공책을 빌려 가는 게 아니라, PDF 파일을 통째로 받아 내 노트북에 저장해 두는 방식에 가깝습니다. ChatGPT처럼 회사 서버에 매번 요청을 보내는 모델과 달리, Llama는 연구실 GPU나 사내 서버에 띄워 놓고 직접 돌릴 수 있어요. 데이터를 외부로 내보내기 곤란한 학교·병원·금융권에서 자체 챗봇을 만들 때 출발점이 되는 이름이라 알아 두면 좋습니다.

한 줄 비유

사내 서버실에 직접 들여놓고 돌리는 표준 결재 시스템.

활용 예시

Case 1

Dell Technologies — Llama 2 온프레미스 검증 디자인

VentureBeat 보도에 따르면 Dell은 2023년 9월 Llama 2를 자사 'Validated Design for Generative AI' 하드웨어에 통합해 기업 사내망 배포 옵션을 정식 제공했습니다.^[7] 클라우드로 데이터를 내보내지 않아도 되는 점이 금융·의료·공공 같은 규제 산업의 도입 사유로 꼽혔고, Dell·Meta 공동 자료는 자사 PowerEdge 서버 기준으로 운영 비용 비교 데이터를 함께 공개했습니다.^[7] 외부 반출이 금지된 내부 문서로 검색 증강 생성(RAG) 챗봇을 구축하는 사용처에 쓰입니다.

Case 2

Upstage — Llama 2 기반 SOLAR 10.7B 한국 모델

Meta 공식 블로그에 따르면 한국 스타트업 Upstage는 Llama 2 가중치를 기반으로 한국어 능력을 강화한 SOLAR 시리즈를 개발했고, 후속작 SOLAR 10.7B는 'depth upscaling' 기법으로 13B급 Llama 2를 확장해 30B급 모델들을 앞서는 벤치마크 점수를 받았습니다.^[8] 2023년 12월 Hugging Face Open LLM Leaderboard에서 1위에 올라 자체 사전학습 없이 한국어 도메인에 맞춘 LLM을 만들 수 있다는 사례로 인용됐습니다.^[8] 사전학습 비용을 직접 부담하기 어려운 국내 SaaS·연구소가 한국어 챗봇을 만들 때 출발점으로 채택했습니다.

Case 3

Stanford CRFM — Alpaca, 600달러로 만든 연구용 모델

스탠퍼드 CRFM은 2023년 3월 Llama 1 7B를 5만 2천 건 지시 데이터로 파인튜닝한 Alpaca를 공개했고, 학습에 들어간 클라우드 GPU 비용은 600달러 미만이었다고 밝혔습니다.^[9] Alpaca·Vicuna 같은 파생 모델들이 잇따라 등장하면서 학계의 LLM 연구 진입 장벽이 한 자릿수 천 달러대로 떨어졌다는 평가를 받았고, 텍사스·버클리·MIT 등 대학 연구실 후속 논문 다수가 Llama 가중치를 출발점으로 진행됐습니다.^[9] 모델 구조 실험·한국어 데이터셋 검증 같은 학술 과제에 쓰입니다.

Case 4

Qualcomm·MediaTek — Llama 3.2 1B/3B 모바일 온디바이스

Meta 공식 발표에 따르면 2024년 9월 공개된 Llama 3.2 1B·3B 경량 모델은 출시 첫날부터 Qualcomm Snapdragon, MediaTek Dimensity, Arm 프로세서에서 온디바이스 실행이 가능하도록 최적화됐습니다.^[10] 컨텍스트 128K 토큰을 유지하면서 요약·재작성·지시 따르기 작업을 단말 안에서 처리해, 클라우드 호출 비용 없이 사용자 데이터를 단말에 묶어 두는 방식이라 메시지 요약·키보드 추천 같은 단말 기능 탑재가 늘었습니다.^[10] 통신 음영 지역이나 데이터 반출이 곤란한 산업용 단말이 주된 사용처입니다.

참고사항

llama.com/docs에서 모델별 라이선스와 사용 제한 정책(AUP)을 한 페이지 읽고 자사 사용 규모와 비교합니다.
Hugging Face에서 Llama 3.1 8B Instruct를 내려받아 로컬 노트북에서 ollama로 한 번 띄워 봅니다.
사내 문서 한 묶음으로 RAG 파이프라인을 만들어 GPT-4·Claude 호출 비용과 자체 호스팅 비용을 단순 비교 표로 정리합니다.
Llama 3.2 1B 또는 3B를 안드로이드·iOS 데모 앱으로 단말에 올려 응답 속도와 메모리 점유를 측정합니다.
Llama 4 Scout 또는 Maverick을 클라우드 인스턴스에서 시험 호출해 멀티모달 입력(텍스트+이미지) 처리 한도를 확인합니다.

Meta 라이선스는 월간 활성 사용자 7억 명 이상 기업에 별도 상업 계약을 요구하고, 사용 제한 정책(AUP)으로 특정 용도를 금지하기 때문에 OSI(Open Source Initiative, 오픈 소스 이니셔티브)는 Llama를 정식 '오픈 소스'로 인정하지 않습니다.^[6] EU 지역의 일부 멀티모달 모델 사용에도 제약이 붙어 있어, 도입 전에 법무 검토가 필요한 영역이 남습니다.^[6] arXiv 기술 보고서에 따르면 Llama 3.1 405B는 15조 토큰을 1만 6천 장 H100 GPU로 학습한 모델로, 직접 운영하려면 GPU 인프라와 운영 인력이 별도로 필요해 모든 조직이 자체 호스팅의 이득을 볼 수 있는 것은 아닙니다.^[3]

진화 방향은 세 갈래로 정리됩니다.

Meta는 Llama 4부터 단일 밀집 모델에서 Mixture-of-Experts(전문가 혼합) 구조로 전환했고, Scout는 1,000만 토큰 컨텍스트, Maverick은 100만 토큰 컨텍스트에 12개 언어 멀티모달을 표준으로 제시했습니다.^[4]
Llama 3.2 1B·3B처럼 단말에서 직접 도는 경량 모델 라인이 별도 축으로 굳어지면서, 클라우드 호출이 어려운 산업(제조 설비·차량·웨어러블)으로 확장되고 있습니다.^[10]
Upstage SOLAR, Stanford Alpaca·Vicuna처럼 가중치를 출발점으로 삼은 파생 모델 생태계가 학계·스타트업의 표준 경로가 되어, 새 도메인 모델은 처음부터 학습하기보다 기존 오픈웨이트를 파인튜닝하는 방식이 일반적입니다.^[8][9] 실무에서는 '사내 호스팅이 정말 필요한가, 어느 사이즈가 필요한가, 라이선스 조건을 통과하는가'를 함께 점검해야 한다는 의미입니다.

이 용어와의 관계

유사 개념
Fireworks AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Together AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Groq같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.