22P by kuroneko 2023-09-26 | favorite | 댓글 4개
  • ChatGPT에 새로운 음성 및 이미지 기능이 출시됨.
  • 음성을 통해 자연스럽게 대화하고, 이미지를 첨부하여 질문하는 것이 가능해짐.
  • 음성은 Whisper를 통해 텍스트로 변환되고, 답변은 새로운 TTS 모델을 기반으로 하여 전문 성우 목소리로 변환됨.
    • 새로운 TTS 모델은 몇 초의 샘플 목소리만 가지고도 해당 사람의 목소리를 그대로 재현하는 것이 가능.
    • 이 모델은 Spotify의 팟캐스트 번역 기능에도 사용되어, 팟캐스터의 목소리를 그대로 사용하여 다국어로 번역을 진행함.
  • 이미지는 한 번에 여러 개 첨부가 가능하며, 이미지 속의 텍스트뿐만 아니라, 사물도 상세하게 인식함.
    • 도구나 장치의 사용법을 물어보거나, 냉장고 속 식재료를 통해 레시피에 대한 대화를 나눌 수 있음.
    • 또한 그래프를 분석하거나 수학 문제를 푸는 등도 가능해짐.
    • 모바일 앱에서는 그리기 도구를 통해 이미지의 특정 부분에 집중하도록 할 수 있음.
    • 안전과 개인 정보 보호를 위해 사람에 대해 분석하거나 이야기하는 기능은 크게 제한되어 있음.
  • 앞으로 2주 내로 Plus 및 Enterprise 사용자에게 먼저 제공될 예정.
  • 음성은 iOS와 Android에서만 동작하며, 이미지 첨부 기능은 모든 플랫폼에서 사용 가능.

스카이넷 is comming...

her 영화 속의 os가 가능해 지겠네요

GPT-4 최초 출시 때 잠깐 나왔었지만, 이미지를 인식하는 걸 넘어서 이해하는 게 너무 신기하네요.

예시를 보면 자전거 안장을 조절하는 방법을 물어보는 부분이 나오는데,
단순히 이미지 인식이 아니라 설명서를 보고 적합한 도구를 찾아주는 것처럼 보여서...

Plus 구독이 필요한가 싶었는데, 이럼 또 이야기가 좀 다르긴 하네요... 너무 궁금해요.

HN 스레드의 AI 요약

  • modeless: 지연 시간이 현재 음성 어시스턴트의 가장 큰 문제이며, 음성 대화 턴-테이킹 모델을 구축하면 보다 자연스러운 대화가 가능하다고 믿습니다.
  • TheEzEzz: Llama 및 기타 도구를 사용하여 자연스러운 대화에 가까운 지연 시간이 짧은 음성 주문 시스템을 구축했습니다. 이 분야에 대한 지속적인 연구를 통해 새로운 애플리케이션을 개발할 수 있다고 생각합니다.
  • cyrux004: 로컬에서 실행되는 모델이 특히 복잡한 시스템의 경우 클라우드 기반 모델과 동일한 성능을 달성할 수 있는지 의문을 제기합니다.
  • TheEzEzz: 애플리케이션에 따라 다르다는 데 동의하며, 로컬 모델이 초기 처리를 처리하고 필요할 때만 대규모 클라우드 모델에 요청하는 하이브리드 접근 방식이 일반화될 것으로 예상합니다.
  • simian1983: 시스템에 무의미하거나 악의적인 요청이 이루어지면 어떻게 될지 질문합니다.
  • TheEzEzz: 백그라운드 노이즈가 요청을 방해하지 않도록 관련 없는 문장은 무시하도록 시스템이 학습되어 있다고 답합니다.
  • furyofantares: 사람과 대화할 때처럼 음성 어시스턴트의 응답을 중단할 수 있는 기능의 중요성을 강조합니다.
  • dotancohen: 중단이 AI 시스템이 아직 마스터하지 못한 인간다움의 신호일 수 있다고 제안합니다.
  • jonplackett: 진정한 인간 수준의 음성 어시스턴트는 텍스트에 없는 중요한 정보를 전달하는 억양을 이해할 수 있어야 한다고 믿습니다.