AI 트렌드

On-Device AI

온디바이스 AI

AI 활용 분야에서 쓰이는 용어로, 스마트폰·태블릿·노트북 같은 사용자 단말 안에서 모델이 직접 실행되도록 만든 AI 운영 방식을 가리키며, 데이터를 외부로 보내지 않고 응답한다는 점이 핵심입니다.

쉬운 풀이

On-Device AI는 멀리 있는 데이터센터에 매번 묻지 않고, 손에 든 스마트폰이나 노트북 안에서 AI 모델을 직접 돌려 답을 만드는 방식이에요. 도서관에서 모르는 단어가 나올 때마다 본관 행정실까지 뛰어가지 않고 책상 위 노트북 사전 앱으로 바로 찾아보는 것과 비슷해요. 응답이 빠르고, 통신이 끊긴 비행기·지하철에서도 작동하며, 사진·통화 같은 민감한 데이터가 기기 밖으로 나가지 않는다는 점이 가장 큰 장점입니다. iPhone의 Apple Intelligence, Galaxy의 통화 통역, Pixel의 Gemini Nano가 같은 방식으로 동작하고, Copilot+ PC에서도 NPU가 같은 역할을 맡습니다.

한 줄 비유
외주를 보내지 않고 사내 인력으로 처리하는 보고서 작성입니다.
활용 예시
Case 1

Apple Intelligence — 약 30억 파라미터 단말 내 모델

2024년 6월 발표된 Apple Intelligence는 Apple Silicon 위에서 약 30억 파라미터의 온디바이스 모델을 돌리고, 더 큰 작업만 Private Cloud Compute로 넘기는 이중 구조입니다 [1][6]. Apple은 이 모델에 KV 캐시 공유와 2비트 양자화를 적용해 메모리 사용을 줄였다고 공식 문서에 밝혔습니다 [1]. WWDC25에서는 외부 개발자도 Foundation Models 프레임워크로 같은 단말 내 모델을 무료로 호출할 수 있게 열었습니다 [7]. 메모 요약, 알림 우선순위, 글쓰기 도구가 기내 모드에서도 작동하는 이유입니다 [1].

Case 2

삼성 Galaxy AI — 한국어 실시간 통화 통역

2024년 1월 공개된 Galaxy S24 시리즈는 통화 통역과 보이스 레코더 요약을 단말 안에서 처리합니다 [8]. Live Translate는 통신망 없이도 한국어를 포함한 13개 언어를 실시간 음성·자막으로 번역합니다 [9][10]. 출장지에서 와이파이가 약해도 통역이 멈추지 않고, 통화 내용이 외부 서버에 저장되지 않는다는 점이 한국 사용자에게 강조됐습니다 [8].

Case 3

Google Pixel 8 Pro — Gemini Nano로 메시지·녹음 요약

2023년 12월 Google은 Pixel Feature Drop을 통해 Pixel 8 Pro에 Gemini Nano를 탑재했다고 발표했습니다 [4]. Gboard의 Smart Reply, 녹음 앱의 요약 기능이 단말 내 모델로 동작하며, AICore SDK를 통해 외부 안드로이드 앱도 같은 모델을 호출할 수 있게 됐습니다 [4]. 와츠앱·라인 같은 메신저 답장 제안이 클라우드 호출 없이 단말 내에서 만들어지는 구조입니다 [4].

Case 4

Microsoft Copilot+ PC — 40 TOPS NPU 기준선

Microsoft는 2024년 5월 Copilot+ PC 카테고리를 발표하며 40 TOPS 이상의 NPU를 의무화했습니다 [5]. Recall, Cocreator, 실시간 캡션, Windows Studio Effects 같은 기능은 NPU에서 직접 처리됩니다 [5][11]. Recall은 화면 스냅샷을 로컬에만 저장하고 로컬에서 분석한다고 공식 문서에 명시돼 있어, 기업이 외부 LLM 호출 비용 없이 사내 PC에 AI 보조 기능을 깔 수 있는 선택지가 생겼습니다 [11]. Qualcomm Snapdragon X Elite의 Hexagon NPU는 45 TOPS, 차세대 X2는 80 TOPS까지 끌어올렸습니다 [12].

참고사항
  1. iPhone 15 Pro 이상에서 Apple Intelligence를 켜고 메모 요약·글쓰기 도구를 기내 모드로 테스트해 결과를 캡처합니다.
  2. Galaxy S24 이상 단말이라면 설정에서 Galaxy AI 항목을 열고 "기기 내 처리만 사용" 옵션을 켠 뒤 통화 통역을 비행기 모드로 검증합니다.
  3. Pixel 8 Pro에서 AICore를 켜고 보이스 레코더 요약과 Gboard Smart Reply의 단말 내 처리 여부를 확인합니다.
  4. Copilot+ PC 사양표에서 NPU TOPS 수치를 확인하고 사내 PC 교체 견적과 비교해 한 페이지로 정리합니다.
  5. 사내에서 외부로 보내면 곤란한 데이터(고객 통화, 계약서 사진)를 추려 어떤 작업을 온디바이스로 분리할 수 있을지 시나리오 3개를 메모합니다.

모델을 작게 만들수록 정확도와 추론 깊이는 떨어집니다. Apple은 30억 파라미터 온디바이스 모델로 처리하기 어려운 작업은 Private Cloud Compute로 넘기는 이중 구조를 택했고, 이는 "단말 안에서 다 끝낼 수 있다"는 약속이 아직 어렵다는 사실을 보여줍니다 [1][6]. NPU TOPS 경쟁은 빠르게 올라가고 있지만 실제 사용자 체감은 메모리 대역폭, 모델 양자화 품질, 앱 단의 최적화에 함께 좌우됩니다 [5][12]. 2025년 1월 arXiv 서베이는 단말이 메모리·연산·전력 예산을 동시에 만족해야 한다는 점을 가장 큰 제약으로 꼽았고, 양자화·증류 과정에서 발생하는 정확도 손실과 디바이스별 측정 기준 불일치도 함께 지적했습니다 [13].

진화 방향은 세 갈래입니다. 첫째 칩 자체가 더 큰 모델을 감당하도록 발전합니다. Qualcomm은 2025년 1월 차세대 Snapdragon X2의 NPU를 80 TOPS로 발표했습니다 [12]. 둘째 운영체제가 공유 모델을 제공해 앱마다 모델을 새로 받지 않게 합니다. Google AICore와 Apple Foundation Models 프레임워크가 같은 방향이고, 2026년 1월 Qualcomm IE-IoT 확장은 PyTorch·TensorFlow·ONNX 런타임을 단일 API로 묶었습니다 [4][7][14]. 셋째 민감한 작업만 단말에서 처리하고 큰 작업은 클라우드로 보내는 하이브리드 라우팅이 표준이 되고 있습니다. Apple Private Cloud Compute가 대표적 예입니다 [1][6].

이 용어와의 관계
  • 유사 개념
    Adaptive Reasoning같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
  • 유사 개념
    Extended Thinking같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
  • 유사 개념
    Prompt Caching같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
관련 태그
참고 자료
  1. Introducing Apple's On-Device and Server Foundation Models — 1차 출처 · Apple Machine Learning Research · 2024-06
  2. Apple Intelligence Foundation Language Models Tech Report 2025 — 기술 보고서 · Apple · 2025
  3. Introducing Copilot+ PCs — 1차 출처 · Microsoft 공식 블로그 · 2024-05-20
  4. Snapdragon X Elite Product Brief — 제품 문서 · Qualcomm · 2024
  5. Snapdragon X Series Redefines the PC Category — 공식 발표 · Qualcomm · 2025-01
  6. Enter the New Era of Mobile AI With Samsung Galaxy S24 Series — 1차 출처 · Samsung Global Newsroom · 2024-01
  7. Galaxy Unpacked 2024: Trying Out AI-Powered Live Translate — 공식 보도자료 · Samsung · 2024-01
  8. How to use Live translate for phone calls with Galaxy AI — 공식 문서 · Samsung · 2024
  9. Apple's Foundation Models framework unlocks new intelligent app experiences — 공식 발표 · Apple Newsroom · 2025-09
  10. Private Cloud Compute: A new frontier for AI privacy in the cloud — 1차 출처 · Apple Security Research · 2024
  11. Manage Recall for Windows clients — 공식 문서 · Microsoft Learn · 2024
  12. Empowering Edge Intelligence: A Comprehensive Survey on On-Device AI Models — 학술 논문 · arXiv · 2025-03
  13. Cognitive Edge Computing: A Comprehensive Survey — 학술 논문 · arXiv · 2025-01
  14. Pixel 8 Pro running Gemini Nano — Pixel Feature Drop — 공식 블로그 · Google · 2023-12
대표 출처Apple Machine Learning Research (2024-06)