# Launch HN: Trellis – 비정형 데이터용 AI 기반 워크플로우

> Clean Markdown view of GeekNews topic #16322. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=16322](https://news.hada.io/topic?id=16322)
- GeekNews Markdown: [https://news.hada.io/topic/16322.md](https://news.hada.io/topic/16322.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-08-15T10:40:46+09:00
- Updated: 2024-08-15T10:40:46+09:00
- Original source: [news.ycombinator.com](https://news.ycombinator.com/item?id=41236273)
- Points: 6
- Comments: 1

## Topic Body

- Trellis는 비정형 데이터를 위한 AI 기반 ETL(Extract, Transform, Load) 도구  
- 사용자가 자연어로 정의한 스키마에 따라 전화 통화, PDF, 채팅 내용을 구조화된 SQL 형식으로 변환  
- 데이터 및 운영 팀이 수작업 데이터 입력을 자동화하고 복잡한 데이터를 SQL 쿼리로 처리할 수 있도록 도와줌   
  
#### Trellis 개발 배경  
  
- Stanford AI 연구소에서 만난 후, 여러 대기업 데이터 팀과 협력하며 비정형 데이터 문제를 발견함  
- 기업 데이터의 80%가 비정형 데이터로 구성되어 있으며, 기존 플랫폼으로는 처리하기 어려움  
- 예를 들어, 주요 상업 은행은 PDF와 이메일에 갇힌 중요한 데이터 때문에 신용 위험 모델을 개선할 수 없었음  
- AI 연구를 바탕으로 비정형 데이터를 스키마에 맞는 테이블로 변환하는 AI 기반 ETL 솔루션을 개발함  
  
#### 기술적 도전 과제  
  
- 복잡한 문서 지원: LLM 기반 맵-리듀스를 사용하여 긴 문서를 처리하고, 테이블 및 레이아웃 추출을 위해 비전 모델을 사용함  
- 모델 라우팅: 각 변환에 최적의 모델을 선택하여 비용과 속도를 최적화함  
- 데이터 검증 및 스키마 보장: 참조 링크와 이상 탐지를 통해 정확성을 보장함  
  
#### 다양한 사용 사례  
  
- 금융 서비스: 복잡한 문서(채권, 신용 등급 등)를 구조화된 형식으로 처리하여 언더라이팅 속도를 높이고 대출 처리 자동화  
- 고객 지원 및 백오피스 운영: 다양한 스키마와 ERP 시스템 간 문서 매핑을 통해 온보딩 속도 향상 및 SOP 준수 보장  
- 데이터 전처리 및 데이터 수집: ETL 파이프라인에서 데이터 전처리 및 RAG 데이터 수집 필요  
  
##### GN⁺의 정리  
  
- Trellis는 비정형 데이터를 구조화된 SQL 형식으로 변환하는 AI 기반 ETL 도구로, 데이터 및 운영 팀의 수작업을 자동화함  
- 복잡한 문서 처리, 모델 라우팅, 데이터 검증 등의 기술적 도전을 해결함  
- 금융 서비스, 고객 지원, 데이터 전처리 등 다양한 산업에서 유용하게 사용될 수 있음  
- 비정형 데이터 처리에 어려움을 겪는 기업들에게 특히 유용할 것임  
- 유사한 기능을 가진 다른 프로젝트로는 Alteryx, Talend 등이 있음

## Comments



### Comment 28038

- Author: neo
- Created: 2024-08-15T10:40:46+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=41236273) 
- 오픈 소스 Python 패키지를 개발 중이며, 비슷한 기능을 제공함
  - Enron 이메일 데모 예시를 공유함

- 주요 상업 은행에서 PDF와 이메일에 갇힌 데이터를 해결하지 못해 신용 위험 모델을 개선하지 못했음
  - 이 문제를 해결하는 것은 큰 가치를 창출함

- SoundTrace에서 관련된 프로젝트를 진행했음
  - 새로운 클라이언트의 PDF 오디오그램 데이터를 완벽하게 추출해야 함
  - 파이프라인을 통해 PDF를 OCR로 텍스트와 테이블을 추출하고, LLM을 통해 직접 파싱함
  - 오디오그램 그래프를 컨브넷으로 보내고, 테이블을 프로그래밍 방식으로 파싱함
  - 결과를 Claude sonnet을 통해 검증하고, 일치하지 않으면 수동 검토함
  - 정확도가 거의 100%에 도달했음

- Instabase에서 일했으며, PDF와 문서 스캔을 처리하는 능력이 중요함

- Trellis의 출시를 축하하며, 엣지 케이스가 거의 0%에 가까워야 함
  - 모든 조직이 필요로 하는 서비스이며, 성공하면 많은 고객이 생길 것임

- Roe AI와의 경쟁 및 차이점에 대해 질문함

- 데이터의 정확성을 어떻게 검증했는지 궁금해함

- 개인 프로젝트에서 TypeChat과 Zod, Unstructured를 사용해 비슷한 작업을 하고 있음

- OpenAI의 함수 호출을 사용해 수천 개의 스캔 문서에서 필드를 추출했음
  - 다양한 입력 문서 형식에서 일부 필드의 회수가 좋지 않았음
  - JSON 스키마를 실험해 최적의 정보를 추출함
  - 긴 문서의 경우 전체 문서를 보낼지, 관련된 부분만 보낼지 결정해야 했음
  - OCR 품질이 좋지 않았음
  - 비기술 사용자가 반복적으로 #2를 수행할 수 있게 하는 것이 주요 혁신임

- 큰 문제를 해결하지 못한 상황에서 출시를 축하함
  - 큰 문제와 예산을 가진 고객이 가장 소외됨
  - Palantir와 같은 온보딩/통합을 통해 고객 맞춤형 솔루션을 제공함
  - 99% 이상의 정확도와 인간의 개입이 효과적임
  - 95%에서 99%로의 개선이 큰 차이를 만들 수 있음
  - "AI 기반 워크플로우" 대신 "99%+ 정확도 추출"을 강조해야 함
