OCR(광학 문자 인식)의 한계
- PDF 파일은 과학 연구, 정부 기록 등 중요한 데이터를 담고 있으나, 포맷이 고정적이라 기계가 읽고 분석하기 어려움
- PDF는 인쇄 레이아웃에 맞춰 제작된 형식이기 때문에 디지털 분석에 적합하지 않음
- 많은 PDF는 정보의 이미지를 포함하므로, 이를 데이터로 변환하기 위해 OCR 소프트웨어가 필요함
- 오래된 문서나 필기된 문서의 경우 OCR 성능이 더욱 떨어짐
비정형 데이터 문제
- 전 세계 조직 데이터의 약 80~90%가 비정형 데이터로 저장되어 있으며, PDF에 포함된 경우가 많음
- 두 개의 칼럼 레이아웃, 표, 차트, 이미지 품질이 낮은 스캔본에서 데이터 추출이 특히 어려움
- 특히 과학 연구, 역사 문서 보존, 고객 서비스, AI 시스템에서 기술 문헌 접근성 확보에 큰 문제 발생
분야별 영향
- 정부 기록, 법원, 경찰, 사회 서비스 등 공공 기관 운영에 영향
- 보험 및 은행 같은 정보 의존 산업에서는 PDF 데이터를 변환하기 위해 시간과 자원 소모
OCR 기술의 역사
- 1970년대에 레이 커즈와일(Ray Kurzweil)이 패턴 매칭 알고리즘 기반의 상업용 OCR 시스템 개발
- 커즈와일 리딩 머신(Kurzweil Reading Machine)은 시각 장애인을 위해 문자 인식 기능 제공
- 전통적인 OCR 시스템은 명암 패턴을 인식해 문자로 변환하는 방식
- 복잡한 글꼴, 다중 열 레이아웃, 표 등에서는 성능 저하 발생
- 전통적인 OCR은 오류가 예측 가능해 수정이 용이하지만 한계 존재
AI 기반 OCR의 부상
- 다중모달(멀티모달) LLM(대규모 언어 모델)은 이미지와 텍스트를 통합해 데이터 추출 수행
- OpenAI, Google, Meta 등의 모델은 문서의 시각적 요소와 텍스트 맥락을 동시에 인식 가능
- 전통 OCR은 문자 단위 패턴 매칭 방식이지만, AI는 문서 레이아웃과 맥락을 인식해 처리
- Amazon의 Textract는 전통 OCR 방식이지만, LLM은 더 넓은 맥락에서 문서를 분석 가능
- 복잡한 레이아웃, 표, 캡션 등을 더 잘 처리함
새로운 LLM 기반 OCR 시도
- 프랑스 AI 회사 Mistral은 LLM 기반 문서 처리 API인 Mistral OCR 출시
- 복잡한 레이아웃의 문서에서 텍스트 및 이미지 추출을 목표로 함
- 성능 문제 발생: 오래된 문서의 표 처리 실패 및 숫자 오류 발생
- 필기체 인식에서 문제 발생 → AI가 임의의 내용을 생성(환각 현상)
- Google의 Gemini 2.0이 현재 가장 우수한 성능 제공 → 복잡한 문서에서도 오류 적음
LLM 기반 OCR의 문제점
- LLM은 확률 기반 모델이기 때문에 오류 발생 가능성 높음
- 문서 레이아웃이 반복될 때 줄이 누락되는 현상 발생
- LLM이 사용자 프롬프트와 문서 내용 구분에 실패해 잘못된 해석 가능
- 표에서 잘못된 값 매칭 시 치명적 오류 발생 → 금융, 법률, 의료 분야에 큰 문제 초래
- 임의의 텍스트 생성 문제 → 인간의 검토 필요
앞으로의 과제
- 완벽한 OCR 솔루션은 아직 존재하지 않음
- Google, OpenAI 등은 문맥 인식 AI 제품을 통해 성능 개선 중
- AI 회사들은 PDF에서 데이터 추출을 통해 AI 학습 데이터 확보 기대
- AI가 PDF 데이터를 완벽히 처리하게 되면, 데이터 분석의 새로운 시대 열릴 가능성