Hacker News 의견
  • 새로운 schnell 모델 출시로 SOTA 비전 모델을 생산할 수 있는 데이터셋 확보 가능성 있음

    • 현재 대부분의 비전 모델은 오래된 CLIP/BLIP 캡션에 기반하고 있음
    • LLAVA나 phi-llava 같은 모델도 여전히 사전 학습된 비전 컴포넌트에 의해 제한받고 있음
    • Tessy와 LLM의 파이프라인이 효과적이며, 다국어 모델이 디지털화된 작업을 읽고 번역할 수 있는 가능성 열림
    • LLAVA-PHI3는 히브리어를 일관되게 전사할 수 있지만 환각 문제 있음
    • 새로운 SOTA 비전 모델이 나오면 품질이 크게 향상될 것으로 기대됨
  • 과학 논문에서는 meta의 nougat 모델이 가장 적합함

    • 청구서와 기록에서는 donut 모델이 더 나음
    • 두 모델 모두 일부 경우 실패할 수 있으며, LLM을 사용해 문제를 해결해야 함
    • OCR 과정에서 세부 사항이 손실되므로 표와 차트를 정확히 처리하기 어려움
    • Google Gemini가 이미지에 대한 미세 조정 기능을 제공하지만 시도해보지 않음
    • 몇 번의 샷 프롬프트가 LLM의 환각을 방지하고 요청된 형식에 맞추는 데 도움됨
  • 과거에 시도해본 결과, 90%의 경우 잘 작동함

    • 임대 계약서와 같은 문서에서는 숫자와 이름(사람이나 장소의 이름/주소)에서 어려움이 있음
    • LLM이 정확히 임대료를 알거나 특정 사람의 이름을 알 수 없음
  • PDF 페이지를 PNG로 변환하고 gpt4에 이미지를 전사하도록 요청하면 매우 정확함

    • Tesseract나 고전적인 OCR보다 더 정확함
  • 10년 전 Tesseract를 사용해 중국어를 OCR로 인식하려고 시도했음

    • 영어 텍스트 인식 후 정리하기 쉬움
    • 중국어는 글자 하나가 잘못 인식되면 오류를 감지하기 어려움
    • 이미지 마법을 사용해 이미지를 변형하고 Tesseract에 보내 인식된 문장의 통계적 빈도를 기반으로 승자를 투표함
    • 정확도가 크게 향상됨
  • PaddlePaddle을 사용해 더 나은 결과를 얻었음

    • PPOCRv3를 사용해 단어 수준으로 책을 자르는 Python 구현을 작성함
    • PPOCRv4는 픽셀 크기 제한이 없으므로 "바로 사용할 수 있음"
    • PPOCRv3 탐지 모델이 더 잘 작동했음
  • 다른 OCR 패키지를 사용해보았는지 질문함

    • Tesseract가 "77"을 "7"로 읽는 문제를 겪었음
  • 프롬프트를 조정해 모델이 더 명확하게 이해하도록 하는 것이 중요함

    • LLM과 문서에 대해 많은 생각을 함
    • OCR이 곧 완전히 해결될 문제라고 생각함
    • 복잡한 문서의 모호성과 세부 사항을 AI 모델에 효과적으로 설명하는 것이 도전 과제임
  • rubrics와 학생 제출물을 파싱하는 유사한 작업을 하고 있음

    • GPT-4V와의 통합에 관심 있음
    • 이메일로 연락을 원함
  • "fix this text" 프롬프트를 사용해 OCR 오류를 수정하는 접근 방식에 대해 질문함

    • 채팅 모델 대신 완성 모델을 사용해 토큰별로 입력하고 다음 토큰 확률을 얻는 방법을 제안함
    • 이 방법이 환각을 크게 줄일 수 있을 것이라고 생각함