• PDF 테이블 추출을 위한 Rust 기반 오픈소스 엔진
  • 기존 파이썬 도구(Camelot, Tabula, pdfplumber)는 OpenCV, Ghostscript, Java 등 무거운 런타임 의존성이 필요하여 서버리스 환경에서 메모리 제약이 큼
  • TREX는 단일 바이너리로 외부 의존성 없이 동작하며, 메모리 ~30MB로 Cloud Run/Lambda에서 OOM 없이 실행 가능
  • Lattice(격자선 기반) / Stream(좌표 추론) 두 가지 파싱 전략을 내장하며, DL Router로 페이지별 최적 전략을 자동 선택 가능
  • 딥러닝 기반 DL Router 가 페이지 피처를 분석하여 최적 파싱 전략(Lattice/Stream/Blend)을 자동 선택. 운영 중 추출 실패 이벤트를 수집하고 ONNX 모델을 재학습하면 정확도를 지속적으로 개선할 수 있음
  • Node.js에서 npm i @dreamyoungs/trex (CLI 래퍼) 또는 npm i @dreamyoungs/trex-node (NAPI-RS 네이티브 바인딩)으로 바로 사용 가능
  • Docker REST API, Python 바인딩도 지원하며, MIT / Apache-2.0 듀얼 라이선스