모델·서비스

Whisper

위스퍼

AI 활용 분야에서 OpenAI가 2022년에 공개한 오픈소스 음성 인식 모델로, 다국어 음성을 텍스트로 변환하거나 영어로 번역해 자막·전사·음성 비서 기반 기능을 제공합니다.

쉬운 풀이

강의 녹음 파일을 그대로 받아 적어 주는 속기사라고 생각하면 됩니다. 조별 과제에서 1시간짜리 인터뷰를 한 줄씩 옮겨 적느라 새벽까지 앉아 있던 경험이 있다면, Whisper는 그 작업을 몇 분 만에 끝내 주는 도구예요. 영어·한국어·일본어 등 99개 언어를 알아듣고, 한국어로 말한 내용을 영어로 바꿔 주기도 합니다. 그래서 회의록·강의 자막·인터뷰 전사처럼 사람이 직접 듣고 받아 적던 일이 모여 있는 곳에서 가장 먼저 자리 잡았어요. 누구나 무료로 내려받아 노트북에서 돌릴 수 있다는 점도 빠른 확산의 배경입니다.

한 줄 비유

회의실 한쪽에 앉아 빠짐없이 받아 적는 속기사를 외주로 쓰는 셈입니다.

활용 예시

Case 1

OpenAI 공개 — 68만 시간 학습, MIT 라이선스 오픈소스

2022년 9월 21일 OpenAI는 Whisper를 GitHub에 MIT 라이선스로 공개했습니다.^[1][2] 웹에서 수집한 68만 시간의 다국어 음성-텍스트 쌍으로 학습한 인코더-디코더 트랜스포머이며, 같은 시점 OpenAI 블로그와 arXiv 논문(2212.04356)에 따르면 기존 지도 학습 모델 대비 강한 억양·배경 소음·전문 용어에 더 잘 견딘다고 보고됐습니다.^[1][3] 공개 직후 whisper.cpp(C++ 이식), WhisperX(단어 단위 타임스탬프·화자 분리), Faster-Whisper 등 파생 프로젝트가 잇따라 등장해 GitHub 스타 9.4만 개를 넘는 ASR 생태계가 형성되었습니다.^[2][4]

Case 2

한국 인프런 — 28분짜리 강의 자막 59초에 생성

온라인 강의 플랫폼 인프런은 2023년 10월 자사 기술 블로그에서 강의 영상 자동 자막 시스템에 WhisperX와 AWS g5.xlarge GPU 인스턴스를 도입한 사례를 공개했습니다.^[8] 28분 길이 강의 영상의 자막 생성을 59초에 끝냈다고 보고했는데, 영상 길이 대비 약 28배 빠른 처리 속도입니다.^[8] 인프런 측은 한국어 자막의 줄 길이·타이밍을 별도로 후처리하면서 실제 서비스에 적용했고, 도입 전 외부 STT API로 받던 자막을 사내 파이프라인으로 옮긴 결과 비용·대기 시간을 동시에 줄였다고 밝혔습니다.^[8]

Case 3

OpenAI Realtime API — gpt-realtime-whisper로 회의·강의 실시간 자막

OpenAI는 2024년 10월 Realtime API에 저지연 스트리밍 전사 모델 gpt-realtime-whisper를 추가했습니다.^[7] 분당 $0.017에 사용 가능하며, 회의·교실·방송·이벤트 자막, 진행 중인 회의록 요약, 음성 에이전트의 연속 청취 같은 흐름을 한 번의 API 호출로 처리합니다.^[7] 콜센터·헬스케어·세일즈·채용 등 음성 대화량이 많은 영역에서 후속 자동화의 기준 인프라로 빠르게 채택되고 있습니다.^[7]

Case 4

한국어 음성 인식 벤치마크 — Whisper Large 한국어 WER 5.5%

리턴제로가 운영하는 한국어 음성 인식 벤치마크 사이트는 공개 자료·녹취·콜센터 음원 등 다양한 한국어 데이터에서 주요 STT 엔진의 단어 오류율(Word Error Rate, WER)을 비교합니다.^[9] 이 자료에 따르면 OpenAI Whisper Large는 한국어 WER 약 5.5% 수준으로, 이전에 공개된 오픈소스 ASR 모델 대비 약 8%p 낮은 오류율을 기록했습니다.^[9] 한국어 학습 시간이 약 8천 시간으로 영어를 제외한 언어 중 7번째로 많아, 한국어 회의록·강의 자막 도구가 Whisper 기반으로 빠르게 전환된 배경이기도 합니다.^[9][10]

참고사항

github.com/openai/whisper에서 모델 카드와 설치 가이드를 확인합니다.
노트북에서 pip install -U openai-whisper 후 1분짜리 회의 녹음을 large-v3 모델로 전사해 봅니다.
한국어 음성에 정확도가 부족하면 large-v3-turbo로 바꿔 정확도와 처리 시간을 비교합니다.
실시간 자막이 필요한 경우 OpenAI Realtime API의 gpt-realtime-whisper로 분당 $0.017 사용량 시뮬레이션을 돌립니다.
개인정보·기밀이 포함된 음성은 로컬 whisper.cpp나 Faster-Whisper로 옮겨 외부 전송 없이 처리합니다.

공식 모델 카드는 한계를 직접 명시합니다. 학습 데이터가 영어에 치우쳐 있어 저자원 언어에서 오류율이 크게 올라가며, 화자 분리(누가 말했는지 구분)는 기본 기능에 포함되지 않아 WhisperX 같은 후처리 라이브러리를 별도로 붙여야 합니다.^[3][5] 환각(hallucination) 문제도 보고되어 있는데, 무음·잡음 구간에서 학습 데이터의 흔한 표현을 그대로 만들어 내는 사례가 의료·법무 영역에서 지적된 바 있어 임상·법률 기록에는 사람 검수가 필수입니다.^[3] 한국어처럼 띄어쓰기 규칙이 유연한 언어에서는 WER보다 CER(Character Error Rate)이 더 적절하다는 점도 OpenAI가 large-v3 릴리스 노트에서 직접 언급했습니다.^[5] 라이선스는 MIT라 상업 이용에 제약이 적지만, 모델 가중치 자체에는 학습 데이터 출처가 모두 공개되지 않아 일부 도메인에서는 별도 검토가 권장됩니다.^[2]

진화 방향은 세 갈래로 정리됩니다.

모델 측에서는 2024년 10월 공개된 large-v3-turbo가 디코더 층을 32개에서 4개로 줄여 8배 빠른 처리 속도와 99% 정확도 유지를 달성하면서, 사양이 낮은 노트북·엣지 디바이스로 내려가는 흐름을 만들고 있습니다.^[6]
제품 측에서는 2024년 Realtime API에 gpt-realtime-whisper가 통합돼 "녹음 후 전사"에서 "말하면서 전사"로 사용 흐름이 바뀌고 있고, 분당 $0.017 정가는 자체 GPU 서버 운영 부담과 직접 비교 가능한 기준선을 만들었습니다.^[7]
한국에서는 클로바노트·리턴제로·다글로 같은 한국어 특화 STT 서비스가 Whisper 기반 파이프라인을 흡수하면서, 화자 분리·전문 용어 사전·후처리 같은 영역에서 차별화 경쟁이 진행 중입니다.^[9]

이 용어와의 관계

유사 개념
Fireworks AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Together AI같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Groq같은 모델·서비스 갈래에서 자주 함께 등장하는 개념입니다.