GN⁺: Launch HN: Trellis – 비정형 데이터용 AI 기반 워크플로우
(news.ycombinator.com)- Trellis는 비정형 데이터를 위한 AI 기반 ETL(Extract, Transform, Load) 도구
- 사용자가 자연어로 정의한 스키마에 따라 전화 통화, PDF, 채팅 내용을 구조화된 SQL 형식으로 변환
- 데이터 및 운영 팀이 수작업 데이터 입력을 자동화하고 복잡한 데이터를 SQL 쿼리로 처리할 수 있도록 도와줌
Trellis 개발 배경
- Stanford AI 연구소에서 만난 후, 여러 대기업 데이터 팀과 협력하며 비정형 데이터 문제를 발견함
- 기업 데이터의 80%가 비정형 데이터로 구성되어 있으며, 기존 플랫폼으로는 처리하기 어려움
- 예를 들어, 주요 상업 은행은 PDF와 이메일에 갇힌 중요한 데이터 때문에 신용 위험 모델을 개선할 수 없었음
- AI 연구를 바탕으로 비정형 데이터를 스키마에 맞는 테이블로 변환하는 AI 기반 ETL 솔루션을 개발함
기술적 도전 과제
- 복잡한 문서 지원: LLM 기반 맵-리듀스를 사용하여 긴 문서를 처리하고, 테이블 및 레이아웃 추출을 위해 비전 모델을 사용함
- 모델 라우팅: 각 변환에 최적의 모델을 선택하여 비용과 속도를 최적화함
- 데이터 검증 및 스키마 보장: 참조 링크와 이상 탐지를 통해 정확성을 보장함
다양한 사용 사례
- 금융 서비스: 복잡한 문서(채권, 신용 등급 등)를 구조화된 형식으로 처리하여 언더라이팅 속도를 높이고 대출 처리 자동화
- 고객 지원 및 백오피스 운영: 다양한 스키마와 ERP 시스템 간 문서 매핑을 통해 온보딩 속도 향상 및 SOP 준수 보장
- 데이터 전처리 및 데이터 수집: ETL 파이프라인에서 데이터 전처리 및 RAG 데이터 수집 필요
GN⁺의 정리
- Trellis는 비정형 데이터를 구조화된 SQL 형식으로 변환하는 AI 기반 ETL 도구로, 데이터 및 운영 팀의 수작업을 자동화함
- 복잡한 문서 처리, 모델 라우팅, 데이터 검증 등의 기술적 도전을 해결함
- 금융 서비스, 고객 지원, 데이터 전처리 등 다양한 산업에서 유용하게 사용될 수 있음
- 비정형 데이터 처리에 어려움을 겪는 기업들에게 특히 유용할 것임
- 유사한 기능을 가진 다른 프로젝트로는 Alteryx, Talend 등이 있음
Hacker News 의견
-
오픈 소스 Python 패키지를 개발 중이며, 비슷한 기능을 제공함
- Enron 이메일 데모 예시를 공유함
-
주요 상업 은행에서 PDF와 이메일에 갇힌 데이터를 해결하지 못해 신용 위험 모델을 개선하지 못했음
- 이 문제를 해결하는 것은 큰 가치를 창출함
-
SoundTrace에서 관련된 프로젝트를 진행했음
- 새로운 클라이언트의 PDF 오디오그램 데이터를 완벽하게 추출해야 함
- 파이프라인을 통해 PDF를 OCR로 텍스트와 테이블을 추출하고, LLM을 통해 직접 파싱함
- 오디오그램 그래프를 컨브넷으로 보내고, 테이블을 프로그래밍 방식으로 파싱함
- 결과를 Claude sonnet을 통해 검증하고, 일치하지 않으면 수동 검토함
- 정확도가 거의 100%에 도달했음
-
Instabase에서 일했으며, PDF와 문서 스캔을 처리하는 능력이 중요함
-
Trellis의 출시를 축하하며, 엣지 케이스가 거의 0%에 가까워야 함
- 모든 조직이 필요로 하는 서비스이며, 성공하면 많은 고객이 생길 것임
-
Roe AI와의 경쟁 및 차이점에 대해 질문함
-
데이터의 정확성을 어떻게 검증했는지 궁금해함
-
개인 프로젝트에서 TypeChat과 Zod, Unstructured를 사용해 비슷한 작업을 하고 있음
-
OpenAI의 함수 호출을 사용해 수천 개의 스캔 문서에서 필드를 추출했음
- 다양한 입력 문서 형식에서 일부 필드의 회수가 좋지 않았음
- JSON 스키마를 실험해 최적의 정보를 추출함
- 긴 문서의 경우 전체 문서를 보낼지, 관련된 부분만 보낼지 결정해야 했음
- OCR 품질이 좋지 않았음
- 비기술 사용자가 반복적으로 #2를 수행할 수 있게 하는 것이 주요 혁신임
-
큰 문제를 해결하지 못한 상황에서 출시를 축하함
- 큰 문제와 예산을 가진 고객이 가장 소외됨
- Palantir와 같은 온보딩/통합을 통해 고객 맞춤형 솔루션을 제공함
- 99% 이상의 정확도와 인간의 개입이 효과적임
- 95%에서 99%로의 개선이 큰 차이를 만들 수 있음
- "AI 기반 워크플로우" 대신 "99%+ 정확도 추출"을 강조해야 함