Vision Language Model로 OCR 대체하기

(github.com/vlm-run)

14P by GN⁺ 2025-02-28 | ★ favorite | 댓글 1개

이 쿡북은 다양한 사례 연구와 실습을 통해 비디오 및 이미지 처리 알고리듬을 탐구하는 오픈 소스 프로젝트임
비디오 추론, 이미지 카탈로그, 패션 이미지 하이브리드 검색 등 다양한 응용 분야를 다루고 있음
다른 프로젝트와 비교하여 다양한 실제 사례를 통해 알고리듬을 학습할 수 있는 장점이 있음
주요 파일 및 노트북
- 00_quickstart.ipynb: 프로젝트의 빠른 시작을 위한 가이드
- 01_schema_showcase.ipynb: 다양한 데이터 스키마를 보여주는 사례 연구 포함
- 02_case_study_drivers_license.ipynb: 운전면허증 인식 하기
- 03_case_study_tv_news.ipynb: TV 뉴스 화면 이해하기
- 04_visual_grounding.ipynb: 시각적 그라운딩 알고리듬 탐구. 이미지 박스 안에서 JSON 추출
- 05_case_study_image_catalogue.ipynb: 패션 제품 카탈로그 분석하여 상품 설명, 카테고리, 타겟 성별, 계절 인식
- 06_fashion_images_hybrid_search.ipynb: 패션 이미지 하이브리드 검색 사례 연구
- advanced_finetuning_video_inference.ipynb: 비디오 추론을 위한 고급 미세 조정 기법

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

GN⁺ 2025-02-28 [-]

Hacker News 의견

흥미로운 아이디어이지만, 아직 생산 환경에서 사용하기에는 신뢰성이 부족함. 전통적인 OCR 모델은 텍스트를 읽지 못할 때 낮은 신뢰도로 의미 없는 결과를 출력함. 반면 VLM은 읽지 못할 때 자신 있게 만들어낸 결과를 출력하며, 신뢰도를 보고할 방법이 없음. 필기체 인식 시도에서 VLM이 문서의 분위기에 맞는 가짜 이름과 날짜를 만들어냈음. 출처 텍스트로 모델을 기반으로 할 방법이 없음
최근 VLM과 OCR을 평가하기 위한 오픈 소스 벤치마크를 발표했으며, 일반적으로 VLM이 전통적인 OCR 모델보다 더 나은 성능을 보였음
VLM의 장점:
- 필기체 인식. 문맥 인식이 도움을 줌. 즉, 문자 하나하나가 아닌 전체 단어/문장을 해석함
- 차트/인포그래픽. VLM은 차트나 흐름도를 텍스트 형식으로 해석할 수 있음. 색상 코드 라인도 포함됨
전통적인 OCR의 장점:
- 표준화된 문서 (예: 미국 세금 양식)
- 밀집된 텍스트. 교과서와 다중 열 연구 논문을 상상해보면 됨. 이는 OCR의 가장 쉬운 사용 사례이지만, VLM은 출력 토큰 수가 증가할수록 어려움을 겪음
- 경계 상자. 매우 정확한 경계 상자를 제공하는 모델은 아직 없음. Gemini와 Qwen이 훈련되었지만 전통적인 모델만큼 잘 수행하지 못함
개선의 여지가 많지만, 특히 Gemini와 같은 모델은 정확성/비용 면에서 매우 경쟁력이 있음
왜 모든 OCR 서비스가 디지털 문서의 완벽한 스크린샷만 보여주는지 궁금함. 디지털 데이터를 OCR하려는 사람이 그렇게 많은가? 그냥 HTML을 복사하면 되지 않나? 디지털 문서가 아닌 경우, 접힌 자국, 미끄러진 줄, 조명 그라데이션, 손가락 등이 있는 스크린샷은 어디에 있는가?
vlm-run과 맞춤형 양식 정의를 실험해보았으며, Gemini 2.0 Flash와 함께 놀랍도록 잘 작동함. 비용도 낮은 것으로 이해함. 간단한 중간 복잡도의 양식에서 최고의 결과를 얻을 수 있음. 10분 미만의 훈련으로 인간에게 처리할 수 있는 것과 비슷한 양식임
OCR 도구는 종이 위의 문자 인식 등 상자에 적힌 대로 잘 수행함. 비전 언어 모델을 사용하는 장점은 "이것은 문자열이지만 타임스탬프처럼 보이는가?"와 같은 논리를 추가할 수 있음
내가 원하는 것: 문서(전체 책 포함)를 스캔/사진 찍어 언어 모델에 전달하고, 원본 문서와 정확히 일치하는 Latex 문서를 얻는 것. 복사기/카메라 결함과 각도는 제외함. 이를 위한 강화 학습 모델이 가능할 것 같음. 픽셀 단위로 이미지를 재현하는 Latex를 생성하는 것을 배울 수 있어야 함
둘 다 사용해야 함. OCR과 LLM을 사용한 후 두 결과를 상관시키면 품질이 크게 향상됨. 문서 이해와 문맥뿐만 아니라 경계 상자 등도 얻을 수 있음. "절대 서류 작성하지 않기" 앱을 만들고 있으며, 관심 있는 사람과 대화하고 싶음
내 프롬프트 때문일 수도 있지만, 이미지 임베딩 후 너무 많은 해석이 있는 것 같음. 내 예시에서는 텍스트의 일부를 요약하기 시작했는데, 불행히도 잘못되었음. 타이핑된 글자가 있는 송장에서는 실제로는 금요일 오후 2시 이후에 제출하면 다음 월요일까지 게시되지 않는다고 했지만, 2-3 영업일 동안 게시되지 않을 것이라고 요약했음. 이는 상당히 다름. 이러한 레이어를 어떻게든 제거할 수 있는지 궁금함. 원샷 구조화된 텍스트 감지 인식이 기본 OCR보다 훨씬 나았음
더 많은 작업이 이루어지고 있는 것을 보는 것은 좋지만, 왜 이것이 누군가의 독점 API에 묶여 있는지 이해할 수 없음. 모델 제공자를 교체하고 기본 로깅을 추가하는 것이 또 다른 공급업체를 온보딩할 만큼 고통스럽지 않음. 특히 LLM 프롬프트와 같은 민감한 것을 처리하는 경우
가장 빠르고 정확한 CLI OCR 도구는 무엇인가? 내 사용 사례는 간단함 - 화면의 일부를 캡처하고 (Flameshot이 이에 좋음) OCR을 하고 싶음. Zoom에서 페어 프로그래밍 중에 메모를 작성하기 위해 필요함. 현재 tesseract를 사용 중이며, 빠르고 잘 작동하지만 실수를 함. 표 형식을 구분하고 ASCII나 마크다운 테이블로 변환할 수 있다면 좋겠음. docling을 시도했지만, 약간 과도한 느낌이 듦. 느린 것 같음 - 스크린샷에서 텍스트를 매우 빠르게 가져와야 함. 기본 설정만 시도했으며, 조정하면 개선될 수 있을 것 같음. 누구든지 이에 대한 생각을 공유해줄 수 있는가? 감사합니다!

답변달기

Vision Language Model로 OCR 대체하기

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견