TREX - Rust로 만든 PDF 테이블 추출 엔진 (딥러닝으로 정확도 개선)

calmlake79 · 2026-02-28T23:52:42+09:00

PDF 테이블 추출을 위한 Rust 기반 오픈소스 엔진 기존 파이썬 도구(Camelot, Tabula, pdfplumber)는 OpenCV, Ghostscript, Java 등 무거운 런타임 의존성이 필요하여 서버리스 환경에서 메모리 제약이 큼 TREX는 단일 바이너리로 외부 의존성 없이 동작하며, 메모리 ~30MB로 Cloud Run/Lambda에서 OOM 없이 실행 가능 Lattice(격자선 기반) / Stream(좌표 추론) 두 가지 파싱 전략을 내장하며, DL Router로 페이지별 최적 전략을 자동 선택 가능 딥러닝 기반 DL Router 가 페이지 피처를 분석하여 최적 파싱 전략(Lattice/Stream/Blend)을 자동 선택. 운영 중 추출 실패 이벤트를 수집하고 ONNX 모델을 재학습하면 정확도를 지속적으로 개선할 수 있음 Node.js에서 npm i @dreamyoungs/trex (CLI 래퍼) 또는 npm i @dreamyoungs/trex-node (NAPI-RS 네이티브 바인딩)으로 바로 사용 가능 Docker REST API, Python 바인딩도 지원하며, MIT / Apache-2.0 듀얼 라이선스

PDF 테이블 추출을 위한 Rust 기반 오픈소스 엔진
기존 파이썬 도구(Camelot, Tabula, pdfplumber)는 OpenCV, Ghostscript, Java 등 무거운 런타임 의존성이 필요하여 서버리스 환경에서 메모리 제약이 큼
TREX는 단일 바이너리로 외부 의존성 없이 동작하며, 메모리 ~30MB로 Cloud Run/Lambda에서 OOM 없이 실행 가능
Lattice(격자선 기반) / Stream(좌표 추론) 두 가지 파싱 전략을 내장하며, DL Router로 페이지별 최적 전략을 자동 선택 가능
딥러닝 기반 DL Router 가 페이지 피처를 분석하여 최적 파싱 전략(Lattice/Stream/Blend)을 자동 선택. 운영 중 추출 실패 이벤트를 수집하고 ONNX 모델을 재학습하면 정확도를 지속적으로 개선할 수 있음
Node.js에서 npm i @dreamyoungs/trex (CLI 래퍼) 또는 npm i @dreamyoungs/trex-node (NAPI-RS 네이티브 바인딩)으로 바로 사용 가능
Docker REST API, Python 바인딩도 지원하며, MIT / Apache-2.0 듀얼 라이선스

TREX - Rust로 만든 PDF 테이블 추출 엔진 (딥러닝으로 정확도 개선)

함께 보면 좋은 글 β

댓글과 토론