기본

Multimodal

멀티모달

AI 모델 분야에서 쓰이는 용어로, 텍스트·이미지·음성·영상 같은 여러 형식(modality)을 한 모델이 함께 입력받거나 출력할 수 있도록 만든 인공지능 처리 방식입니다.

쉬운 풀이

멀티모달은 글·사진·소리·영상처럼 서로 다른 형태의 정보를 한 모델이 동시에 알아듣고 답하는 방식이에요. 사진을 카톡으로 보내며 "이게 뭐야?" 한 줄만 적어도 알아서 설명해 주는 친구처럼, 텍스트와 이미지를 따로따로 묻지 않아도 한 번에 처리해 줍니다. 강의 슬라이드 PDF에 표·그래프·필기가 섞여 있어도 그대로 올려놓고 "3쪽 차트 의미가 뭐야?"라고 물어볼 수 있고, 시험 직전에는 강의 녹음 mp3를 던지면서 "30분 안에 핵심 요점 5개로 정리해 줘"라고 부탁할 수도 있어요.

한 줄 비유

보고서 텍스트와 첨부 도면을 동시에 읽고 답하는 검토자입니다.

활용 예시

Case 1

OpenAI GPT-4o — 실시간 음성·영상 응답

OpenAI는 2024년 5월 13일 GPT-4o를 공개하면서 오디오 입력에 평균 320ms 만에 응답한다고 발표했습니다.^[1] 단일 신경망이 텍스트·오디오·이미지를 끝단까지 함께 학습한 구조 덕분에, 기존 STT → LLM → TTS 3단 파이프라인이 한 번의 추론으로 줄었습니다.^[1] API 가격도 GPT-4 Turbo 대비 50% 저렴해졌습니다.^[1] 콜센터 1차 응대, 외국어 회의 동시통역, 화면 공유 기반 원격 지원처럼 지연이 곧 품질인 업무가 1순위 적용처입니다.

Case 2

네이버 하이퍼클로바X — 한국어 문서·이미지·음성 통합 분석

네이버는 2024년 8월 22일 CLOVA 기술 블로그를 통해 하이퍼클로바X에 이미지 이해와 생성형 음성 합성 기능을 추가했다고 발표했습니다.^[4] 한국어 표·차트·스캔 PDF를 첨부해 질문하면 그대로 답을 내놓는 구조이며, KED Global은 한국어 멀티모달 영역에서 자체 기반 모델로 OpenAI와 경쟁할 수 있는 첫 사례라고 보도했습니다.^[5] 이후 NAVER Cloud는 하이퍼클로바X OMNI를 공개하며 텍스트·이미지·음성 입출력 조합을 모두 지원합니다.^[6] 국내 공공·금융 문서가 PDF·스캔 이미지로 잠겨 있던 환경에 활용도가 높습니다.

Case 3

의료 영상 판독 — GPT-4V 단독 사용 한계 확인

유럽영상의학회지(European Radiology, 2024)에 실린 평가에서 GPT-4V는 230건의 응급실 영상에서 촬영 방식 식별 100%, 해부학적 부위 87.1%, 병변 식별 35.2%(76/216)를 기록했습니다.^[8] 연구진은 "범용 멀티모달 GPT-4가 임상 영상 판독의 신뢰할 만한 단독 도구로는 아직 부적합"하다고 결론지었습니다.^[8] 범용 멀티모달은 1차 분류·교육·리포트 초안에 우선 투입하고, 최종 판독은 전문의가 책임지는 분업 구조가 안전합니다.

Case 4

Google DeepMind Gemini 1.5 — 멀티모달 장문 컨텍스트 99% 회수

Google DeepMind는 2024년 3월 기술보고서에서 Gemini 1.5 Pro가 텍스트 1,000만 토큰, 음성 약 107시간, 영상 약 10.5시간까지 모달리티별 "건초더미 속 바늘 찾기" 정답률을 99% 이상 유지했다고 보고했습니다.^[7] 직전 Claude 2.1의 20만 토큰, GPT-4 Turbo의 12만 8천 토큰 대비 컨텍스트 한계가 50배 이상 확장된 수치입니다.^[7] 분기 실적 발표 영상 전체를 입력해 발언자별 발언을 추적하는 식의 작업이 현실적으로 가능해졌습니다.

참고사항

사내 보고서 PDF 한 건을 GPT-4o나 Claude에 올려 "표 3과 도면 1을 함께 요약해 주세요"라고 요청합니다.
회의 녹취 mp3를 GPT-4o 음성 모드에 입력해 발언자별 요약을 받아 봅니다.
휴대폰 카메라로 거래처 명함을 찍어 그대로 CRM 등록용 JSON을 만들어 봅니다.
차트·그래프 이미지를 붙여 "이 수치가 전년 대비 어떻게 달라졌는지" 해석을 요청합니다.
일주일간 사용 로그를 보고 음성·이미지·텍스트 중 어떤 입력이 업무 시간을 가장 줄였는지 정산합니다. 같은 작업을 텍스트 단독 모델에도 시켜보면, 모달리티 통합으로 절감되는 시간을 분 단위로 측정할 수 있습니다. 그 결과를 사내 가이드로 정리해 두면 어떤 업무에 멀티모달을 우선 붙일지 판단 기준이 생깁니다.

한계가 분명합니다. 의료·법률 같은 고위험 영역에서 GPT-4V의 병변 식별 정확도가 35.2%에 그치는 등 단독 판단 도구로 쓰기 어렵다는 학술 평가가 반복 보고되고 있습니다.^[8] 단일 모델이 모든 모달리티를 처리하는 만큼 입력 토큰 비용이 텍스트 단독보다 빠르게 증가하는 점도 운영 부담입니다. 1분짜리 영상이 수만 토큰을 차지하기 때문에, 회의 녹화 전체를 그대로 입력하면 같은 질문도 텍스트 단독 대비 비용이 수 배로 뛰는 구간이 흔합니다. Google DeepMind Gemini 1.5 기술보고서도 장문 멀티모달 컨텍스트에서 정밀도가 거의 완벽에 가깝다고 보고하면서, 동시에 메모리·연산 비용이 모달리티 수에 비례해 늘어난다는 점을 명시했습니다.^[7] 모달리티 간 정렬이 어긋나 그럴듯한 오답을 만들어 내는 환각 위험도 텍스트 단독 모델보다 추적이 까다롭습니다.

진화 방향은 두 갈래입니다.

GPT-4o처럼 단일 신경망 안에서 텍스트·이미지·음성·영상을 한 번에 통합하는 흐름입니다.^[1] Anthropic도 2024년 3월 4일 Claude 3 패밀리에 비전 입력을 모든 등급(Opus·Sonnet·Haiku)에 기본 탑재했습니다.^[3]
영상 생성으로 확장되는 흐름입니다. OpenAI Sora와 Google Veo가 텍스트·이미지·영상을 같은 모달리티 공간에서 생성하기 시작했고, 행동(Action) 모달리티까지 포함하는 비전·언어·행동(VLA) 모델로도 가지를 치고 있습니다. DeepMind RT-2 계열이 후속 RT-X와 Gemini Robotics로 이어지면서 로봇 제어가 멀티모달 모델의 새로운 응용 축으로 자리 잡고 있습니다.^[9] 현재 시점에서는 일반 사무 업무에는 GPT-4o·Claude·하이퍼클로바X 같은 통합 모델, 영상 생성에는 Sora·Veo 같은 전용 모델을 나눠 쓰는 분리 운용이 권장됩니다.

이 용어와의 관계

유사 개념
Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.