22P by xguru 31일전 | favorite | 댓글 1개
  • 구조화된 데이터에 대해서 자연어로 쿼리 가능한 NL-to-SQL 엔진
  • 전체 코드베이스를 오픈소스로 전환 : 코어엔진, 클라이언트(인증/RBAC) 등 포함
  • 이제 누구나 자신의 제품 내부에 text-To-SQL 솔루션을 구축 가능
  • Dataherald의 Core NL-to-SQL 엔진은 LLM 기반 에이전트로, CoT(Chain of Thought) 추론과 다양한 도구를 사용해 주어진 사용자 프롬프트에서 정확도 높은 SQL을 생성
  • 총 4개의 서비스가 포함됨
    • 엔진 : LLM 에이전크, 벡터 스토어 및 DB 커넥터
    • 관리자 콘솔 : 엔진 설정 및 Observability 관리용 NextJS 프론트엔드
    • 엔터프라이즈 백엔드 : 코어엔진을 감싸서 인증/캐싱/API 등을 추가
    • 슬랙봇 : Dataherald 를 슬랙 워크플로우에 추가

Dataherald - 자연어-to-SQL 엔진
8 개월전에 공유했었는데, 이제 전체를 오픈소스로 공개했네요.

Hacker News 의견

  • 이 도구가 정말 멋져 보임. 다른 도구들은 간단한 쿼리에는 잘 작동하지만 복잡한 스키마와 조인에는 어려움이 있음. DataHerald가 이 문제를 해결했는지 궁금함.
  • 작년에 텍스트-투-SQL 제품을 오픈 소스로 공개했음. 이런 비즈니스를 구축하는 것은 매우 어려움. 오픈 소스와 Snowflake/PowerBI와 같은 무료 배포 도구와 연계하는 것이 더 합리적임.
  • 전체 제품을 오픈 소스로 공개한 이유가 궁금함. 오픈 코어 모델로 전환 중인지 궁금함. 이유를 공유해주면 감사하겠음.
  • 역사적인 기여에 감사함. 많은 기업들이 현재 데이터를 "대화"하고 있음. 많은 팀들이 비슷한 작업을 하고 있을 것임.
  • 기능이 풍부한 AI 분석 도우미 중 하나임. 오픈 소스로 공개한 것에 찬사를 보냄. Metabase, Airbyte, dbt와 같은 성공적인 예시들이 있음.
  • 이 도구의 대상이 누구인지 궁금함. 웹사이트는 분석가를 거치지 않고 데이터 질문에 답할 수 있다고 주장하지만, 분석가는 모델과 데이터 전문가임. 데이터 웨어하우스는 다양한 문제를 가질 수 있음. LLM이 이를 일관되게 처리할 수 있는지 궁금함.
  • 이 도구가 평균적인 LLM보다 더 잘 작동하는 이유는 데이터베이스 구조를 사용해 훈련할 수 있기 때문임. 하지만 데이터베이스 구조가 자주 변경될 수 있어 재훈련이 필요할 수 있음. PR 수정 후 자동으로 재훈련이 되는지 궁금함.
  • 이 도구가 복잡한 조인을 할 수 있는지 궁금함. 웹사이트에서 예제를 찾을 수 없었음.
  • NLP+ORM 시스템을 사용하는 것이 더 나은 이유를 이해하지 못하겠음. 고정된 구문을 사용해야 하지만 100% 정확도를 얻을 수 있음.
  • NL-to-SQL을 최근에 프로토타입으로 사용해봤음. 실수나 악의적인 행위자가 데이터베이스에 영향을 미치는 것을 방지하는 방법이 문제였음. 이와 관련된 다른 측면에 대해 이야기하고 싶다면 연락해달라고 함.