GN⁺: "Talk-Llama"
(github.com/ggerganov)- 'Talk-Llama'라는 AI 도구 소개 기사, 사용자가 터미널에서 AI와 대화할 수 있게 해줌
- Whisper Medium과 LLaMA v2 13B Q8_0 모델을 사용하는 도구, 2023년 11월 2일자 최신 성능 업데이트
- Talk-Llama, 마이크로폰에서 오디오를 캡처하기 위해 SDL2 라이브러리에 의존
- SDL2 설치 지침 제공, Linux와 Mac OS에 대한 'talk-llama' 실행 파일 빌드 및 실행 방법
- 사용자는 -mw 및 -ml 인수를 통해 사용하고자 하는 Whisper와 LLaMA 모델을 지정 가능
- 세션 관리 지원 도구, 이전 상호작용의 맥락을 유지하여 더 일관성 있는 연속적인 대화 가능
- 사용자는 --session FILE 명령 줄 옵션을 사용하여 세션 지원을 활성화 가능, 각 상호작용 후 모델 상태를 저장하고 이전 세션을 재개할 수 있음
- 최상의 경험을 위해, 생성된 텍스트 응답을 음성으로 변환하는 Text-to-Speech (TTS) 도구 권장
- 사용자는 선호하는 TTS 엔진을 사용하고 'speak' 스크립트를 필요에 따라 편집 가능
- 피드백에 개방적인 도구, 사용자들이 지속적인 토론에 참여하도록 장려
Hacker News 의견
- Apple Silicon의 성능이 whisper.cpp를 완전히 실행하고 llama.cpp 생성 속도가 크게 향상되면서 크게 개선되었습니다.
- Llama는 프로젝트를 위한 오픈소스 TTS 모델과 성공적으로 통합되었음을 보여주며, 그 다양성을 강조하였습니다.
- 복잡한 문제를 해결하려고 시도하지 않고 수동 오버헤드를 줄이는 코딩 동료 도구가 가장 유용하다고 간주됩니다.
- 말을 컨텍스트 벡터에 내장하는 도구의 아이디어가 미래적이고 잠재적으로 유용한 개념으로 제안되었습니다.
- arch와 debian에서 talk-llama를 실행할 때 "부동 소수점 예외" 문제에 대한 보고가 있어, 호환성 문제가 있을 수 있음을 나타냅니다.
- LLM 응답이 완전히 시작되기 전에 대신 TTS에 ~6 토큰씩 그룹을 스트리밍하여 지연을 줄이는 제안이 제시되었습니다.
- 오픈 웨이트 제안이 실현되면 이 기술이 금지될 가능성에 대한 우려가 제기되었습니다.
- 텍스트 스트림을 받을 수 있는 텍스트-토크 솔루션의 가능성이 논의되었으며, 이는 llama가 생산을 완료하기를 기다릴 필요 없이 답변을 말해주는 것을 제거할 것입니다.
- llama를 위한 최적의 채팅 인터페이스에 대한 질문이 제기되었으며, 빠른 코딩 작업을 위해 터미널에서 모델 중 하나를 실행하고자 하는 욕구가 있습니다.
- Elevenlabs 음성이 비싸다고 지적되었으며, 단일 대화가 $20에 이를 수 있습니다.
- whisper/SOTA OS tts 모델에 대한 ollama의 동등한 것이 무엇인지 질문되었으며, whisper를 로컬에서 실행하기 위한 간단한 설정을 원합니다.
- 이 기술의 능력에 대한 평이한 영어 설명이 요청되었습니다. 특히 채팅의 컨텍스트를 배우고 유지하고 장기적인 메모리를 구축할 수 있는지 여부에 대해.