# OCRmyPDF - 스캔된 PDF파일에 OCR 텍스트 레이어 추가

> Clean Markdown view of GeekNews topic #5346. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=5346](https://news.hada.io/topic?id=5346)
- GeekNews Markdown: [https://news.hada.io/topic/5346.md](https://news.hada.io/topic/5346.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2021-11-09T11:02:26+09:00
- Updated: 2021-11-09T11:02:26+09:00
- Original source: [github.com](https://github.com/jbarlow83/OCRmyPDF)
- Points: 17
- Comments: 2

## Topic Body

- 일반 PDF로 부터 검색가능한 PDF/A 파일 생성

- OCR한 문자열을 이미지 아래에 삽입해서 Copy/Paste 지원

- 기존 임베드된 이미지의 해상도는 그대로 유지

- 파일을 훼손하지 않고 OCR정보를 삽입

- PDF 이미지는 최적화해서 파일 크기를 줄임

- CPU코어 모두 활용해서 분산 처리

- Tesseract OCR 이용해서 100개 이상의 언어 그대로 지원 (한국어 포함)

- 수천 페이지 분량의 파일도 잘 스케일링해서 처리

- 수백만개의 파일로 테스트 완료

- 리눅스/맥/윈도우(WSL)

## Comments



### Comment 7533

- Author: alstjr7375
- Created: 2021-11-09T11:45:35+09:00
- Points: 1

멋지네요.

### Comment 7532

- Author: xguru
- Created: 2021-11-09T11:02:31+09:00
- Points: 3

몇일 전에 올라온 pdfsandwich 보다 훨씬 더 기능이 많다고 하네요.

- pdfsandwich - 이미지와 OCR을 샌드위치한 PDF 파일 만드는 도구 https://news.hada.io/topic?id=5334
