▲xguru 2024-02-07 | parent | ★ favorite | on: NaturalSQL-7B - 자연어를 SQL로 변환하는 강력한 모델 (github.com/cfahlgren1)Hacker News 의견 SQL-Eval에서의 성능 점수가 76.5%로, GPT-4의 83%와 sqlcoder-15b의 78%에 조금 뒤처짐. 이러한 AI 데이터 과학 인턴이 유용할 수 있는 응용 분야는 무엇일까? 75%의 정확도를 가진 AI를 활용해 무엇을 만들 수 있을까? SQL 작업 시 자주 참고자료를 찾아보는 프로그래머로서, 이런 AI를 첫 번째 쿼리 초안 작성에 활용할 수 있을 것 같음. 큰 모델들이 한 번의 케이스에서 더 나은 결과를 제공할 수 있지만, 64GB m1에서 15b 모델을 쉽게 실행할 수 있음. 기업 환경에서는 스키마 정보를 OpenAI의 훈련 데이터로 유출하고 싶지 않고, 오프라인에서 쿼리를 실행하고 싶을 때도 있음. 많은 쿼리를 수행하고 싶을 때 작고 로컬 모델이 유용함(비용 절감). 비기술적인 사람들도 질의할 수 있는 미니 데이터 과학자는 멋질 것이나, 쿼리가 25%의 '부정확한' 경우에 속하는지 판단하는 방법이 궁금함. 여러 AI가 서로의 답변을 검증하는 RAID와 같은 합의 알고리즘을 통해 전체 성공률을 높일 수 있을지도 모름. 이러한 생각은 대부분 생각을 정리하는 과정이지만, 다른 사람들이 더 많은 아이디어를 가질 수도 있음. OP의 출시를 축하함! 텍스트-투-SQL 모델들이 올바른 문제를 해결하고 있지 않다고 생각함. 어려운 부분은 문법이나 'group by' 쿼리 작성 방법을 모르는 것이 아니라, 데이터의 의미를 이해하는 것임. Snowflake의 50개 컬럼 테이블을 보고 컬럼 이름만으로 무엇인지 추측할 수 없음. 예를 들어, 모두 ...price로 명명된 10개의 컬럼이 있는 테이블이 있을 때, 실제 의미를 알기 위해 위키를 찾아보거나 DBT 정의를 읽어야 함. 모델이 생성하는 쿼리를 신뢰할 수 없음, 모델은 데이터를 이해하지 못하고 쿼리 문법만 이해함. 이것이 오픈 소스가 아니라는 점을 지적함, 사용 기반 제한이 있기 때문에 '소스 사용 가능'이라고 부를 것. 이것은 흥미롭고 관심 있는 분야에 해당하지만, 그것이 복잡한 질문이라고 생각하지 않음, 기본적인 분석 질문임. 대부분의 분석가들은 잠을 자면서도 이런 것을 작성할 수 있음. ChatGPT를 SQL 작성에 사용해보았지만 평범함, 하지만 분명히 나아질 것임. AI의 많은 사용처와 마찬가지로, 특히 범위에 따라 그룹화하는 것과 같은 아이디어를 제시할 때 '시드'로서 매우 좋음. 그러나 거의 모든 데이터베이스에서 문제는 세부 사항에 있음. 다양한 제품이 '수량'을 다르게 해석하고(예: 박스 대 단위), 쿠폰과 할인이 이상한 방식으로 모델링되며, 무게가 파운드/킬로그램으로 가정되고 단위 지정 없이 혼합됨 등등. 이것이 75%만 정확하다고 해서 쓸모없다고 말하는 사람들은 다음 두 가지를 고려해야 함: 이것은 첫 번째 버전이며, 이미 상상할 수 있는 어떤 에어테이블보다 제품 소유자와 분석가들에게 천 배 더 유용함. 모든 도전에 정확하고 싶은 마음은 있지만, 우리는 이미 "충분히 좋은" 경제에서 살고 있으며, 이것이 충분히 가까우면 비즈니스에 충분히 좋을 것임. 더 복잡하고 현실적인 벤치마크인 Bird에서 어떻게 수행하는지 궁금함. 데이터 분야에서 일한 경험을 바탕으로, 많은 사람들이 경영진으로부터 질문을 받고, 데이터 웨어하우스를 충분히 이해하여 그 질문에 답할 SQL을 작성하고, 때로는 예쁘게 포맷된 답변을 전달하는 책임이 있음. 때로는 경영진이 "왜 그 숫자가 너무 낮아? 분명히 그렇게 낮아서는 안 되는데"와 같은 후속 질문을 예측해야 하므로 데이터 엔지니어에게 버그를 확인하도록 요청해야 함. 모든 LLM과 마찬가지로, 이것이 그 책임을 훨씬 쉽게 만들 것인지, 아니면 완전히 없앨 것인지 확신할 수 없음. 정말 멋진데, 라이센스가 표준이 아님에도 불구하고 오픈 소스처럼 보임. 실제 모델은 여기에서 찾을 수 있음: NaturalSQL-6.7B-v0 이것은 훌륭한 기본 모델로 보이지만, 작은 모델에 대해 text-to-sql이 좋은 사용 사례인지 궁금함. 우리도 이 분야에서 도구를 개발하고 있으며, 답변을 더 잘 알고 있기를 바라며 gpt-4를 사용하고 싶음. 심지어 gpt 3.5도 생산에 충분하지 않음. 매우 멋진데, 이 라이센스가 Vanna와 함께 사용할 수 있을지 궁금함: Vanna
Hacker News 의견
SQL-Eval에서의 성능 점수가 76.5%로, GPT-4의 83%와 sqlcoder-15b의 78%에 조금 뒤처짐.
텍스트-투-SQL 모델들이 올바른 문제를 해결하고 있지 않다고 생각함.
이것이 오픈 소스가 아니라는 점을 지적함, 사용 기반 제한이 있기 때문에 '소스 사용 가능'이라고 부를 것.
이것은 흥미롭고 관심 있는 분야에 해당하지만, 그것이 복잡한 질문이라고 생각하지 않음, 기본적인 분석 질문임.
AI의 많은 사용처와 마찬가지로, 특히 범위에 따라 그룹화하는 것과 같은 아이디어를 제시할 때 '시드'로서 매우 좋음.
이것이 75%만 정확하다고 해서 쓸모없다고 말하는 사람들은 다음 두 가지를 고려해야 함:
더 복잡하고 현실적인 벤치마크인 Bird에서 어떻게 수행하는지 궁금함.
데이터 분야에서 일한 경험을 바탕으로, 많은 사람들이 경영진으로부터 질문을 받고, 데이터 웨어하우스를 충분히 이해하여 그 질문에 답할 SQL을 작성하고, 때로는 예쁘게 포맷된 답변을 전달하는 책임이 있음.
정말 멋진데, 라이센스가 표준이 아님에도 불구하고 오픈 소스처럼 보임.
매우 멋진데, 이 라이센스가 Vanna와 함께 사용할 수 있을지 궁금함: Vanna