13P by xguru 2021-03-12 | favorite | 댓글 1개

- PDF 또는 이미지에서 테이블 데이터를 추출해서 CSV로 만들어주는 오픈소스
- Python + OpenCV + Tesseract 코드
- PDF안의 이미지는 Poppler + ImageMagick 으로 모두 각각의 이미지 파일로 추출해서 한번에 처리 가능 (배치 스크립트)

테이블에 숫자만 있는 경우엔 아래 코드가 영역까지 선정해서 뽑아낼수 있어서 더 편할듯 합니다.

image2csv - 숫자 표 이미지를 CSV로 변환하는 오픈소스
https://github.com/artperrin/image2csv
- Python + OpenCV + Tesseract 코드
- 자동 그리드(표) 인식
- 수동 인식시 윈도우에서 마우스로 영역 선택