▲GN⁺ 2024-09-20 | parent | ★ favorite | on: 모시: 실시간 대화를 위한 음성-텍스트 기반 모델(github.com/kyutai-labs)Hacker News 의견 첫 번째 의견 지연 시간이 매우 짧아 오픈 소스 모델로서는 큰 성과임 최근 매우 우수한 LLM들에 비해 응답 품질이 떨어짐 2019년의 LLM을 연상케 함 오디오 측면에서는 충분히 잘했으나, 응답 품질에 더 집중해야 함 두 번째 의견 YouTube에서 몇 달 전의 재미있는 데모를 발견함 지금은 개선되었을 것이라고 확신함 세 번째 의견 실시간 음성 -> LLM -> 음성 출력 솔루션을 개발 중임 스트리밍 신경 오디오 코덱이 가장 흥미로움 제품 관점에서는 LLM에 바로 연결하기보다는 도구/기능 호출 단계가 필요함 tincans 개발이 종료되었지만, 이 방향으로의 발전 가능성이 큼 네 번째 의견 Moshi는 CC-BY 라이선스임 최근 Apache v2로 출시된 유사한 7b 모델이 있음 다섯 번째 의견 iPad의 a-shell 터미널에서 TTS 인터페이스를 제공하는 편리한 방법이 있는지 궁금함 여섯 번째 의견 최근 음성 지원 LM 분야에서 많은 발전이 있었음 관련 프로젝트로 LLaMA-Omni와 mini-omni가 있음 일곱 번째 의견 추론 서버는 Rust로 작성되었고, huggingface의 Candle crate를 사용함 Moshi 저자 중 한 명이 Candle의 주요 저자임 Candle을 기반으로 한 추론 스택을 구축 중임 여덟 번째 의견 사용해본 결과, 즉시 응답하지만 실제 질문에 대한 답변은 나중에 제공됨 때로는 루프에 빠질 수 있음 아홉 번째 의견 지연 시간이 약 200ms로 매우 짧음 7B 트랜스포머 모델을 사용하여 매우 똑똑하지는 않음 더 큰 모델을 사용하면 지연 시간이 길어질 수 있음 시스템 아키텍처에서 중간 단계의 응답을 제공하는 방법이 필요함 열 번째 의견 응답 속도는 인상적이나, 응답의 품질은 그렇지 않음 Moshi와의 대화 예시를 제공함 "2019년"이라는 잘못된 응답을 제공함 COVID-19에 대한 잘못된 정보를 제공함
Hacker News 의견
첫 번째 의견
두 번째 의견
세 번째 의견
네 번째 의견
다섯 번째 의견
여섯 번째 의견
일곱 번째 의견
여덟 번째 의견
아홉 번째 의견
열 번째 의견