On-Device AI
온디바이스 AI
AI 활용 분야에서 쓰이는 용어로, 스마트폰·태블릿·노트북 같은 사용자 단말 안에서 모델이 직접 실행되도록 만든 AI 운영 방식을 가리키며, 데이터를 외부로 보내지 않고 응답한다는 점이 핵심입니다.
On-Device AI는 멀리 있는 데이터센터에 매번 묻지 않고, 손에 든 스마트폰이나 노트북 안에서 AI 모델을 직접 돌려 답을 만드는 방식이에요. 도서관에서 모르는 단어가 나올 때마다 본관 행정실까지 뛰어가지 않고 책상 위 노트북 사전 앱으로 바로 찾아보는 것과 비슷해요. 응답이 빠르고, 통신이 끊긴 비행기·지하철에서도 작동하며, 사진·통화 같은 민감한 데이터가 기기 밖으로 나가지 않는다는 점이 가장 큰 장점입니다. iPhone의 Apple Intelligence, Galaxy의 통화 통역, Pixel의 Gemini Nano가 같은 방식으로 동작하고, Copilot+ PC에서도 NPU가 같은 역할을 맡습니다.
외주를 보내지 않고 사내 인력으로 처리하는 보고서 작성입니다.
Apple Intelligence — 약 30억 파라미터 단말 내 모델
2024년 6월 발표된 Apple Intelligence는 Apple Silicon 위에서 약 30억 파라미터의 온디바이스 모델을 돌리고, 더 큰 작업만 Private Cloud Compute로 넘기는 이중 구조입니다 [1][6]. Apple은 이 모델에 KV 캐시 공유와 2비트 양자화를 적용해 메모리 사용을 줄였다고 공식 문서에 밝혔습니다 [1]. WWDC25에서는 외부 개발자도 Foundation Models 프레임워크로 같은 단말 내 모델을 무료로 호출할 수 있게 열었습니다 [7]. 메모 요약, 알림 우선순위, 글쓰기 도구가 기내 모드에서도 작동하는 이유입니다 [1].
삼성 Galaxy AI — 한국어 실시간 통화 통역
2024년 1월 공개된 Galaxy S24 시리즈는 통화 통역과 보이스 레코더 요약을 단말 안에서 처리합니다 [8]. Live Translate는 통신망 없이도 한국어를 포함한 13개 언어를 실시간 음성·자막으로 번역합니다 [9][10]. 출장지에서 와이파이가 약해도 통역이 멈추지 않고, 통화 내용이 외부 서버에 저장되지 않는다는 점이 한국 사용자에게 강조됐습니다 [8].
Google Pixel 8 Pro — Gemini Nano로 메시지·녹음 요약
2023년 12월 Google은 Pixel Feature Drop을 통해 Pixel 8 Pro에 Gemini Nano를 탑재했다고 발표했습니다 [4]. Gboard의 Smart Reply, 녹음 앱의 요약 기능이 단말 내 모델로 동작하며, AICore SDK를 통해 외부 안드로이드 앱도 같은 모델을 호출할 수 있게 됐습니다 [4]. 와츠앱·라인 같은 메신저 답장 제안이 클라우드 호출 없이 단말 내에서 만들어지는 구조입니다 [4].
Microsoft Copilot+ PC — 40 TOPS NPU 기준선
Microsoft는 2024년 5월 Copilot+ PC 카테고리를 발표하며 40 TOPS 이상의 NPU를 의무화했습니다 [5]. Recall, Cocreator, 실시간 캡션, Windows Studio Effects 같은 기능은 NPU에서 직접 처리됩니다 [5][11]. Recall은 화면 스냅샷을 로컬에만 저장하고 로컬에서 분석한다고 공식 문서에 명시돼 있어, 기업이 외부 LLM 호출 비용 없이 사내 PC에 AI 보조 기능을 깔 수 있는 선택지가 생겼습니다 [11]. Qualcomm Snapdragon X Elite의 Hexagon NPU는 45 TOPS, 차세대 X2는 80 TOPS까지 끌어올렸습니다 [12].
- iPhone 15 Pro 이상에서 Apple Intelligence를 켜고 메모 요약·글쓰기 도구를 기내 모드로 테스트해 결과를 캡처합니다.
- Galaxy S24 이상 단말이라면 설정에서 Galaxy AI 항목을 열고 "기기 내 처리만 사용" 옵션을 켠 뒤 통화 통역을 비행기 모드로 검증합니다.
- Pixel 8 Pro에서 AICore를 켜고 보이스 레코더 요약과 Gboard Smart Reply의 단말 내 처리 여부를 확인합니다.
- Copilot+ PC 사양표에서 NPU TOPS 수치를 확인하고 사내 PC 교체 견적과 비교해 한 페이지로 정리합니다.
- 사내에서 외부로 보내면 곤란한 데이터(고객 통화, 계약서 사진)를 추려 어떤 작업을 온디바이스로 분리할 수 있을지 시나리오 3개를 메모합니다.
모델을 작게 만들수록 정확도와 추론 깊이는 떨어집니다. Apple은 30억 파라미터 온디바이스 모델로 처리하기 어려운 작업은 Private Cloud Compute로 넘기는 이중 구조를 택했고, 이는 "단말 안에서 다 끝낼 수 있다"는 약속이 아직 어렵다는 사실을 보여줍니다 [1][6]. NPU TOPS 경쟁은 빠르게 올라가고 있지만 실제 사용자 체감은 메모리 대역폭, 모델 양자화 품질, 앱 단의 최적화에 함께 좌우됩니다 [5][12]. 2025년 1월 arXiv 서베이는 단말이 메모리·연산·전력 예산을 동시에 만족해야 한다는 점을 가장 큰 제약으로 꼽았고, 양자화·증류 과정에서 발생하는 정확도 손실과 디바이스별 측정 기준 불일치도 함께 지적했습니다 [13].
진화 방향은 세 갈래입니다. 첫째 칩 자체가 더 큰 모델을 감당하도록 발전합니다. Qualcomm은 2025년 1월 차세대 Snapdragon X2의 NPU를 80 TOPS로 발표했습니다 [12]. 둘째 운영체제가 공유 모델을 제공해 앱마다 모델을 새로 받지 않게 합니다. Google AICore와 Apple Foundation Models 프레임워크가 같은 방향이고, 2026년 1월 Qualcomm IE-IoT 확장은 PyTorch·TensorFlow·ONNX 런타임을 단일 API로 묶었습니다 [4][7][14]. 셋째 민감한 작업만 단말에서 처리하고 큰 작업은 클라우드로 보내는 하이브리드 라우팅이 표준이 되고 있습니다. Apple Private Cloud Compute가 대표적 예입니다 [1][6].
- 유사 개념Adaptive Reasoning같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Extended Thinking같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Prompt Caching같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
- Introducing Apple's On-Device and Server Foundation Models — 1차 출처 · Apple Machine Learning Research · 2024-06
- Apple Intelligence Foundation Language Models Tech Report 2025 — 기술 보고서 · Apple · 2025
- Introducing Copilot+ PCs — 1차 출처 · Microsoft 공식 블로그 · 2024-05-20
- Snapdragon X Elite Product Brief — 제품 문서 · Qualcomm · 2024
- Snapdragon X Series Redefines the PC Category — 공식 발표 · Qualcomm · 2025-01
- Enter the New Era of Mobile AI With Samsung Galaxy S24 Series — 1차 출처 · Samsung Global Newsroom · 2024-01
- Galaxy Unpacked 2024: Trying Out AI-Powered Live Translate — 공식 보도자료 · Samsung · 2024-01
- How to use Live translate for phone calls with Galaxy AI — 공식 문서 · Samsung · 2024
- Apple's Foundation Models framework unlocks new intelligent app experiences — 공식 발표 · Apple Newsroom · 2025-09
- Private Cloud Compute: A new frontier for AI privacy in the cloud — 1차 출처 · Apple Security Research · 2024
- Manage Recall for Windows clients — 공식 문서 · Microsoft Learn · 2024
- Empowering Edge Intelligence: A Comprehensive Survey on On-Device AI Models — 학술 논문 · arXiv · 2025-03
- Cognitive Edge Computing: A Comprehensive Survey — 학술 논문 · arXiv · 2025-01
- Pixel 8 Pro running Gemini Nano — Pixel Feature Drop — 공식 블로그 · Google · 2023-12
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.