▲kuroneko 2023-09-26 | parent | ★ favorite | on: ChatGPT는 이제 보고, 듣고, 말할 수 있습니다(openai.com)HN 스레드의 AI 요약 modeless: 지연 시간이 현재 음성 어시스턴트의 가장 큰 문제이며, 음성 대화 턴-테이킹 모델을 구축하면 보다 자연스러운 대화가 가능하다고 믿습니다. TheEzEzz: Llama 및 기타 도구를 사용하여 자연스러운 대화에 가까운 지연 시간이 짧은 음성 주문 시스템을 구축했습니다. 이 분야에 대한 지속적인 연구를 통해 새로운 애플리케이션을 개발할 수 있다고 생각합니다. cyrux004: 로컬에서 실행되는 모델이 특히 복잡한 시스템의 경우 클라우드 기반 모델과 동일한 성능을 달성할 수 있는지 의문을 제기합니다. TheEzEzz: 애플리케이션에 따라 다르다는 데 동의하며, 로컬 모델이 초기 처리를 처리하고 필요할 때만 대규모 클라우드 모델에 요청하는 하이브리드 접근 방식이 일반화될 것으로 예상합니다. simian1983: 시스템에 무의미하거나 악의적인 요청이 이루어지면 어떻게 될지 질문합니다. TheEzEzz: 백그라운드 노이즈가 요청을 방해하지 않도록 관련 없는 문장은 무시하도록 시스템이 학습되어 있다고 답합니다. furyofantares: 사람과 대화할 때처럼 음성 어시스턴트의 응답을 중단할 수 있는 기능의 중요성을 강조합니다. dotancohen: 중단이 AI 시스템이 아직 마스터하지 못한 인간다움의 신호일 수 있다고 제안합니다. jonplackett: 진정한 인간 수준의 음성 어시스턴트는 텍스트에 없는 중요한 정보를 전달하는 억양을 이해할 수 있어야 한다고 믿습니다.
HN 스레드의 AI 요약