GPT-4 최초 출시 때 잠깐 나왔었지만, 이미지를 인식하는 걸 넘어서 이해하는 게 너무 신기하네요.

예시를 보면 자전거 안장을 조절하는 방법을 물어보는 부분이 나오는데,
단순히 이미지 인식이 아니라 설명서를 보고 적합한 도구를 찾아주는 것처럼 보여서...

Plus 구독이 필요한가 싶었는데, 이럼 또 이야기가 좀 다르긴 하네요... 너무 궁금해요.

HN 스레드의 AI 요약

  • modeless: 지연 시간이 현재 음성 어시스턴트의 가장 큰 문제이며, 음성 대화 턴-테이킹 모델을 구축하면 보다 자연스러운 대화가 가능하다고 믿습니다.
  • TheEzEzz: Llama 및 기타 도구를 사용하여 자연스러운 대화에 가까운 지연 시간이 짧은 음성 주문 시스템을 구축했습니다. 이 분야에 대한 지속적인 연구를 통해 새로운 애플리케이션을 개발할 수 있다고 생각합니다.
  • cyrux004: 로컬에서 실행되는 모델이 특히 복잡한 시스템의 경우 클라우드 기반 모델과 동일한 성능을 달성할 수 있는지 의문을 제기합니다.
  • TheEzEzz: 애플리케이션에 따라 다르다는 데 동의하며, 로컬 모델이 초기 처리를 처리하고 필요할 때만 대규모 클라우드 모델에 요청하는 하이브리드 접근 방식이 일반화될 것으로 예상합니다.
  • simian1983: 시스템에 무의미하거나 악의적인 요청이 이루어지면 어떻게 될지 질문합니다.
  • TheEzEzz: 백그라운드 노이즈가 요청을 방해하지 않도록 관련 없는 문장은 무시하도록 시스템이 학습되어 있다고 답합니다.
  • furyofantares: 사람과 대화할 때처럼 음성 어시스턴트의 응답을 중단할 수 있는 기능의 중요성을 강조합니다.
  • dotancohen: 중단이 AI 시스템이 아직 마스터하지 못한 인간다움의 신호일 수 있다고 제안합니다.
  • jonplackett: 진정한 인간 수준의 음성 어시스턴트는 텍스트에 없는 중요한 정보를 전달하는 억양을 이해할 수 있어야 한다고 믿습니다.