6P by neo 3달전 | favorite | 댓글 1개
  • Trellis는 비정형 데이터를 위한 AI 기반 ETL(Extract, Transform, Load) 도구
  • 사용자가 자연어로 정의한 스키마에 따라 전화 통화, PDF, 채팅 내용을 구조화된 SQL 형식으로 변환
  • 데이터 및 운영 팀이 수작업 데이터 입력을 자동화하고 복잡한 데이터를 SQL 쿼리로 처리할 수 있도록 도와줌

Trellis 개발 배경

  • Stanford AI 연구소에서 만난 후, 여러 대기업 데이터 팀과 협력하며 비정형 데이터 문제를 발견함
  • 기업 데이터의 80%가 비정형 데이터로 구성되어 있으며, 기존 플랫폼으로는 처리하기 어려움
  • 예를 들어, 주요 상업 은행은 PDF와 이메일에 갇힌 중요한 데이터 때문에 신용 위험 모델을 개선할 수 없었음
  • AI 연구를 바탕으로 비정형 데이터를 스키마에 맞는 테이블로 변환하는 AI 기반 ETL 솔루션을 개발함

기술적 도전 과제

  • 복잡한 문서 지원: LLM 기반 맵-리듀스를 사용하여 긴 문서를 처리하고, 테이블 및 레이아웃 추출을 위해 비전 모델을 사용함
  • 모델 라우팅: 각 변환에 최적의 모델을 선택하여 비용과 속도를 최적화함
  • 데이터 검증 및 스키마 보장: 참조 링크와 이상 탐지를 통해 정확성을 보장함

다양한 사용 사례

  • 금융 서비스: 복잡한 문서(채권, 신용 등급 등)를 구조화된 형식으로 처리하여 언더라이팅 속도를 높이고 대출 처리 자동화
  • 고객 지원 및 백오피스 운영: 다양한 스키마와 ERP 시스템 간 문서 매핑을 통해 온보딩 속도 향상 및 SOP 준수 보장
  • 데이터 전처리 및 데이터 수집: ETL 파이프라인에서 데이터 전처리 및 RAG 데이터 수집 필요

GN⁺의 정리

  • Trellis는 비정형 데이터를 구조화된 SQL 형식으로 변환하는 AI 기반 ETL 도구로, 데이터 및 운영 팀의 수작업을 자동화함
  • 복잡한 문서 처리, 모델 라우팅, 데이터 검증 등의 기술적 도전을 해결함
  • 금융 서비스, 고객 지원, 데이터 전처리 등 다양한 산업에서 유용하게 사용될 수 있음
  • 비정형 데이터 처리에 어려움을 겪는 기업들에게 특히 유용할 것임
  • 유사한 기능을 가진 다른 프로젝트로는 Alteryx, Talend 등이 있음
Hacker News 의견
  • 오픈 소스 Python 패키지를 개발 중이며, 비슷한 기능을 제공함

    • Enron 이메일 데모 예시를 공유함
  • 주요 상업 은행에서 PDF와 이메일에 갇힌 데이터를 해결하지 못해 신용 위험 모델을 개선하지 못했음

    • 이 문제를 해결하는 것은 큰 가치를 창출함
  • SoundTrace에서 관련된 프로젝트를 진행했음

    • 새로운 클라이언트의 PDF 오디오그램 데이터를 완벽하게 추출해야 함
    • 파이프라인을 통해 PDF를 OCR로 텍스트와 테이블을 추출하고, LLM을 통해 직접 파싱함
    • 오디오그램 그래프를 컨브넷으로 보내고, 테이블을 프로그래밍 방식으로 파싱함
    • 결과를 Claude sonnet을 통해 검증하고, 일치하지 않으면 수동 검토함
    • 정확도가 거의 100%에 도달했음
  • Instabase에서 일했으며, PDF와 문서 스캔을 처리하는 능력이 중요함

  • Trellis의 출시를 축하하며, 엣지 케이스가 거의 0%에 가까워야 함

    • 모든 조직이 필요로 하는 서비스이며, 성공하면 많은 고객이 생길 것임
  • Roe AI와의 경쟁 및 차이점에 대해 질문함

  • 데이터의 정확성을 어떻게 검증했는지 궁금해함

  • 개인 프로젝트에서 TypeChat과 Zod, Unstructured를 사용해 비슷한 작업을 하고 있음

  • OpenAI의 함수 호출을 사용해 수천 개의 스캔 문서에서 필드를 추출했음

    • 다양한 입력 문서 형식에서 일부 필드의 회수가 좋지 않았음
    • JSON 스키마를 실험해 최적의 정보를 추출함
    • 긴 문서의 경우 전체 문서를 보낼지, 관련된 부분만 보낼지 결정해야 했음
    • OCR 품질이 좋지 않았음
    • 비기술 사용자가 반복적으로 #2를 수행할 수 있게 하는 것이 주요 혁신임
  • 큰 문제를 해결하지 못한 상황에서 출시를 축하함

    • 큰 문제와 예산을 가진 고객이 가장 소외됨
    • Palantir와 같은 온보딩/통합을 통해 고객 맞춤형 솔루션을 제공함
    • 99% 이상의 정확도와 인간의 개입이 효과적임
    • 95%에서 99%로의 개선이 큰 차이를 만들 수 있음
    • "AI 기반 워크플로우" 대신 "99%+ 정확도 추출"을 강조해야 함