2P by GN⁺ 12일전 | ★ favorite | 댓글 1개

OCR(광학 문자 인식)의 한계

  • PDF 파일은 과학 연구, 정부 기록 등 중요한 데이터를 담고 있으나, 포맷이 고정적이라 기계가 읽고 분석하기 어려움
  • PDF는 인쇄 레이아웃에 맞춰 제작된 형식이기 때문에 디지털 분석에 적합하지 않음
  • 많은 PDF는 정보의 이미지를 포함하므로, 이를 데이터로 변환하기 위해 OCR 소프트웨어가 필요함
  • 오래된 문서나 필기된 문서의 경우 OCR 성능이 더욱 떨어짐

비정형 데이터 문제

  • 전 세계 조직 데이터의 약 80~90%가 비정형 데이터로 저장되어 있으며, PDF에 포함된 경우가 많음
  • 두 개의 칼럼 레이아웃, 표, 차트, 이미지 품질이 낮은 스캔본에서 데이터 추출이 특히 어려움
  • 특히 과학 연구, 역사 문서 보존, 고객 서비스, AI 시스템에서 기술 문헌 접근성 확보에 큰 문제 발생

분야별 영향

  • 정부 기록, 법원, 경찰, 사회 서비스 등 공공 기관 운영에 영향
  • 보험 및 은행 같은 정보 의존 산업에서는 PDF 데이터를 변환하기 위해 시간과 자원 소모

OCR 기술의 역사

  • 1970년대에 레이 커즈와일(Ray Kurzweil)이 패턴 매칭 알고리즘 기반의 상업용 OCR 시스템 개발
  • 커즈와일 리딩 머신(Kurzweil Reading Machine)은 시각 장애인을 위해 문자 인식 기능 제공
  • 전통적인 OCR 시스템은 명암 패턴을 인식해 문자로 변환하는 방식
  • 복잡한 글꼴, 다중 열 레이아웃, 표 등에서는 성능 저하 발생
  • 전통적인 OCR은 오류가 예측 가능해 수정이 용이하지만 한계 존재

AI 기반 OCR의 부상

  • 다중모달(멀티모달) LLM(대규모 언어 모델)은 이미지와 텍스트를 통합해 데이터 추출 수행
  • OpenAI, Google, Meta 등의 모델은 문서의 시각적 요소와 텍스트 맥락을 동시에 인식 가능
  • 전통 OCR은 문자 단위 패턴 매칭 방식이지만, AI는 문서 레이아웃과 맥락을 인식해 처리
  • Amazon의 Textract는 전통 OCR 방식이지만, LLM은 더 넓은 맥락에서 문서를 분석 가능
  • 복잡한 레이아웃, 표, 캡션 등을 더 잘 처리함

새로운 LLM 기반 OCR 시도

  • 프랑스 AI 회사 Mistral은 LLM 기반 문서 처리 API인 Mistral OCR 출시
  • 복잡한 레이아웃의 문서에서 텍스트 및 이미지 추출을 목표로 함
  • 성능 문제 발생: 오래된 문서의 표 처리 실패 및 숫자 오류 발생
  • 필기체 인식에서 문제 발생 → AI가 임의의 내용을 생성(환각 현상)
  • Google의 Gemini 2.0이 현재 가장 우수한 성능 제공 → 복잡한 문서에서도 오류 적음

LLM 기반 OCR의 문제점

  • LLM은 확률 기반 모델이기 때문에 오류 발생 가능성 높음
  • 문서 레이아웃이 반복될 때 줄이 누락되는 현상 발생
  • LLM이 사용자 프롬프트와 문서 내용 구분에 실패해 잘못된 해석 가능
  • 표에서 잘못된 값 매칭 시 치명적 오류 발생 → 금융, 법률, 의료 분야에 큰 문제 초래
  • 임의의 텍스트 생성 문제 → 인간의 검토 필요

앞으로의 과제

  • 완벽한 OCR 솔루션은 아직 존재하지 않음
  • Google, OpenAI 등은 문맥 인식 AI 제품을 통해 성능 개선 중
  • AI 회사들은 PDF에서 데이터 추출을 통해 AI 학습 데이터 확보 기대
  • AI가 PDF 데이터를 완벽히 처리하게 되면, 데이터 분석의 새로운 시대 열릴 가능성

'PDF는 인쇄 레이아웃에 맞춰 제작된 형식이기 때문에 디지털 분석에 적합하지 않음'

HWP도 비슷한 문제가 있다고 봅니다. HWP는 여전히 훌룡한 소프트웨어라고 생각하지만, 기본적으로 출판용이라서 분석이 어렵죠.

반면 워드는 출력물 제작에 쓰려면 엉망이지만, 그만큼 내용에 집중할 수 있고, 그래서 오히려 웹/AI 시대에 더 잘 맞았는 것 같아요