기본

OCR

AI 활용 분야에서 쓰이는 OCR(Optical Character Recognition, 광학 문자 인식)의 약자로, 이미지·스캔본·사진 속 글자를 컴퓨터가 텍스트로 인식해 검색·편집할 수 있게 변환하는 기술입니다.

쉬운 풀이

OCR은 사진이나 스캔본 안에 박혀 있는 글자를 컴퓨터가 알아볼 수 있는 글자 데이터로 옮겨 주는 기술이에요. 종이 영수증 한 박스를 카메라로 찍어 두면 OCR이 한 장씩 읽어 엑셀에 자동으로 옮겨 적어 주는 일을 합니다. 노트북 카메라로 칠판 필기를 찍어 검색 가능한 메모로 바꾸는 무료 앱들이 대부분 OCR을 씁니다. 요즘은 ChatGPT나 Claude에 이미지를 던지면 글자만 깔끔하게 뽑아 주기도 해서, "이미지를 텍스트로 바꾸는" 모든 작업의 기반 기술로 보면 무리가 없어요.

한 줄 비유
종이 영수증 한 박스를 신입에게 엑셀로 옮겨 달라고 시키는 작업입니다.
활용 예시
Case 1

Amazon Textract — 영수증·인보이스 디지털화

AWS는 2021년 Textract에 AnalyzeExpense API를 추가해, 영수증·인보이스에서 공급사명·날짜·총액·품목별 금액·결제 조건을 자동 추출합니다.[06] 로고 안에 들어간 상호도 인식하고, "Bill No.·Invoice No.·Receipt No."처럼 표기가 달라도 INVOICE_RECEIPT_ID라는 표준 필드로 자동 매핑해 회계 시스템에 그대로 연동할 수 있습니다.[06] 결재용 영수증을 매월 수천 장 정리하는 재무팀이나 RPA로 비용 정산을 자동화하는 조직에 적용처가 분명합니다.

Case 2

Upstage — 한국 공공기관 첫 생성형 AI 등록

한국 스타트업 Upstage는 한국어·영어 특화 Document AI OCR을 운영하며, 기본 모델만으로 95% 이상의 인식률을 공개 자료에 보고했습니다.[07] 2025년 12월에는 자체 LLM(Solar)과 OCR 기반 문서 처리 기술을 결합한 'Public AI Workspace'를 조달청 디지털서비스몰에 등록해, 국내 공공행정용 생성형 AI 1호 사업자가 되었습니다.[08] HWP·Word·PDF를 업로드해 검색·요약·정보 추출까지 한 환경에서 처리하는 구조로, 공문서 비중이 높은 중앙부처·지자체에 우선 적용처가 있습니다.

Case 3

중앙대학교광명병원 — 의료 차트 EMR 자동화

중앙대학교광명병원 연구팀은 병원 전자의무기록(EMR)에서 진료·청구 데이터를 추출하는 검토 공정을 OCR+RPA 조합으로 자동화한 사례를 보고했습니다.[09] 손글씨 처방·검사 결과지·보험금 청구서처럼 정형 양식이 섞인 문서를 OCR로 1차 디지털화한 뒤, NLP·룰 엔진으로 항목을 표준화하는 구성이 보험·의료 영역의 표준 파이프라인으로 자리잡았습니다.[09] 같은 흐름에서 생명보험사 오렌지라이프도 수기 청구서 디지털화용 사내 AI OCR 플랫폼을 자체 구축했습니다.[09] 청구 건수가 일 단위로 수천 건씩 들어오는 보험·병원 행정 조직에 적용처가 명확합니다.

Case 4

Naver CLOVA OCR — 다국어·손글씨 인식

네이버 CLOVA OCR은 ICDAR(International Conference on Document Analysis and Recognition, 국제 문서 분석·인식 학회) 2019에서 4개 부문 1위를 기록한 OCR 엔진을 기반으로, 한국어·일본어 손글씨 인식과 굴절·기울어진 문자, 다국어 동시 처리를 지원합니다.[10] 공식 자료 기준 손글씨 인식률은 경쟁사 대비 2배 이상이며, 영수증·신분증·계약서 등 30여 종 양식 템플릿을 제공합니다.[10] 외국인 환자 등록·다국적 거래처 송장 처리·고객 손글씨 응모권 검수처럼 정형 OCR로 처리가 어려운 케이스에 적용처가 있습니다.

참고사항
  1. 최근 한 달 영수증 10장과 스캔 보고서 1건을 골라 Google Cloud Vision·Upstage·CLOVA OCR 데모에 동일하게 넣고 인식률을 비교 기록합니다.
  2. 손글씨가 섞인 문서(설문지·메모·서명란)를 별도로 테스트해 한국어 손글씨 인식이 실용 수준인지 점검합니다.
  3. Amazon Textract AnalyzeExpense 데모에 인보이스 1건을 넣어 공급사·총액·품목이 표준 필드로 잘 잡히는지 확인합니다.
  4. OCR 결과를 그대로 LLM(예: Claude·GPT)에 붙여 넣고 "표 구조 유지·핵심 항목 JSON 추출"을 요청해 OCR+LLM 결합 파이프라인을 시제품으로 만들어 봅니다.
  5. 자사 문서 100건 기준으로 "건당 처리 시간·건당 단가·인식 오류율" 세 줄짜리 견적표를 만들어 외주·SaaS·자체 구축 옵션을 비교합니다.

OCR은 글자 자체는 잘 읽지만 표·그래프·문단 의존성 같은 시각 정보가 풍부한 VRD(Visually Rich Document, 시각 정보가 풍부한 문서)에서 핵심 정보를 누락하는 경향이 있습니다.[11] Upstage 공식 블로그는 "단순 텍스트 추출만으로는 중요한 정보 손실이 발생한다"고 명시하며, LLM 활용 전 단계에서 레이아웃 분석과 마크다운 변환이 필수임을 강조합니다.[11] 손글씨·저화질 스캔·다국어 혼용·도장·서명 같은 케이스에서는 인식 오류율이 여전히 상승하며, arXiv 2025 논문도 이미지 해상도·시각 복잡도가 멀티모달 LLM의 OCR 정확도에 직접 영향을 준다고 보고합니다.[12]

진화 방향은 세 갈래입니다.

  1. 트랜스포머 기반 End-to-End OCR입니다. TrOCR이 ViT 인코더+Transformer 디코더로 인쇄·필기·장면 텍스트 전 영역에서 최고 성능을 갱신했고, 이후 LayoutLM 계열이 텍스트와 2D 위치를 함께 학습해 문서 구조 이해까지 흡수했습니다.[04]
  2. OCR+LLM 결합입니다. 2025년 출시된 Mistral OCR이나 GPT-4V·Claude·Gemini 멀티모달 모델은 "이 문서가 무엇을 말하는가" 수준의 의미 이해를 OCR 파이프라인에 직접 부착하는 흐름을 만들고 있어, Tesseract 같은 별도 엔진 호출 없이 한 번에 답을 받는 구조로 무게 중심이 옮겨 가고 있습니다.[05]
  3. 도메인 특화 IDP 시장의 성장입니다. 시장 자료 기준 IDP는 연 26%+ 성장률로 2034년 910억 달러까지 확장될 것으로 전망되며, 한국에서는 Upstage가 공공·의료·보험·제조 영역의 도메인 솔루션으로 자리잡고 있습니다.[05][08]
이 용어와의 관계
  • 유사 개념
    Throughput같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
  • 유사 개념
    Latency같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
  • 유사 개념
    SWE-bench같은 기본 갈래에서 자주 함께 등장하는 개념입니다.
관련 태그
참고 자료
  1. Detect and extract text from images | Cloud Vision API — 회사 공식 문서 · Google Cloud · 2026
  2. Enterprise Document OCR | Document AI — 회사 공식 문서 · Google Cloud · 2026
  3. TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models — 학술 논문 · arXiv (Microsoft) · 2021-09
  4. OCR Technology in 2026: How AI and LLMs Changed Everything — 산업 분석 · Pixno · 2026
  5. Analyzing Invoices and Receipts - Amazon Textract — 회사 공식 문서 · AWS · 2026
  6. OCR API for Developers | Upstage Extract Text from Any Document — 회사 공식 문서 · Upstage
  7. Upstage Becomes Korea's First Public-Sector Generative AI Provider — 권위 매체 · KoreaTechDesk · 2025-12
  8. 이슈분석: AI 만난 OCR, 비대면 수요 속 공급 폭주 — 디지털 전환 '속도' — 권위 매체 · 전자신문
  9. CLOVA OCR — AI Services — 회사 공식 문서 · 네이버 클라우드
  10. Understanding document structure with OCR — Document AI technology for LLM — 회사 공식 문서 · Upstage · 2023-12
  11. Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity — 학술 논문 · arXiv · 2025-03
대표 출처Google Cloud Vision 공식 문서