1P by neo 2023-09-26 | favorite | 댓글 1개
  • OpenAI, ChatGPT에 새로운 음성 및 이미지 기능 도입
  • 새로운 기능들은 사용자가 음성 대화를 나누거나 ChatGPT에 이미지를 보여주는 등 더 직관적인 인터페이스 제공
  • 사용자들은 랜드마크 사진을 찍어 실시간 대화를 나누거나, 냉장고와 식료품 저장실의 사진을 찍어 저녁 식사 메뉴를 결정하는 등 다양한 방식으로 이 기능들을 활용 가능
  • 다음 두 주 동안 Plus 및 Enterprise 사용자들에게 도입 예정, 음성 기능은 iOS와 Android에서, 이미지 기능은 모든 플랫폼에서 사용 가능
  • 새로운 음성 기능은 텍스트와 몇 초간의 샘플 음성만으로 인간과 같은 오디오를 생성할 수 있는 텍스트-투-스피치 모델에 의해 구동
  • 음성 기능은 전문 음성 배우들과 협업하여 개발되었으며, OpenAI의 오픈 소스 음성 인식 시스템인 Whisper를 사용하여 말한 단어를 텍스트로 변환
  • 이미지 이해 기능은 다양한 이미지에 언어 추론 능력을 적용하는 GPT-3.5와 GPT-4에 의해 구동
  • OpenAI는 이러한 기능들을 점진적으로 배포하여 안전하고 유익한 사용을 보장하고, 미래의 더 강력한 시스템에 대비하는 사용자들을 준비
  • 새로운 음성 기술은 공공 인물을 가장하거나 사기를 저지르는 악의적인 행위자들에게 잠재적 위험성을 제공
  • 비전 기반 모델들도 새로운 도전을 제시, 예를 들어 사람들에 대한 환각이나 고위험 영역에서 모델의 이미지 해석에 의존하는 문제
  • OpenAI는 개인의 프라이버시를 존중하기 위해 ChatGPT의 사람들에 대한 분석 및 직접적인 발언 능력을 제한하는 조치를 취함
  • OpenAI는 모델의 한계에 대해 투명하게 공개, 특히 연구 및 비 로마자 스크립트 언어 분야에서의 한계를 강조
  • Plus 및 Enterprise 사용자들은 다음 두 주 동안 음성 및 이미지 기능을 체험하게 될 것이며, 개발자를 포함한 다른 사용자 그룹들은 곧 이어서 체험 예정
Hacker News 의견
  • ChatGPT의 새로운 음성 및 이미지 기능은 잠재력이 있지만, 질의와 응답 사이의 지연 시간이 우려됩니다.
  • 이 기술은 로봇 기획에 사용될 수 있으며, 이는 일반 목적의 로봇이 간단한 노동을 수행하는 데 이르게 할 수 있습니다.
  • ChatGPT의 발전은 다중 모달 기능을 구축하려던 많은 스타트업을 혼란스럽게 만들 수 있습니다.
  • 적절한 공지 없이 웹 브라우징 기능이 제거된 것에 대한 실망이 있습니다.
  • 새로운 기능은 강인한 AI 기반 이미지 인식을 앱 사용자 인터페이스에 사용하고 실행 가능한 테스트 자동화 코드를 생성하는 데 사용될 수 있습니다.
  • 가장 직관적인 사용자 경험은 텍스트 채팅인 것 같지만, 이미지와의 상호작용도 흥미롭습니다.
  • 이미지 지원의 추가는 학생들이 숙제에 대한 답을 얻기 위해 악용될 수 있습니다.
  • OpenAI의 새로운 기능과 롤아웃에 대한 커뮤니케이션이 부족하다는 비판이 있습니다.
  • 새로운 기능은 취미 프로젝트에서 다양한 AI 서비스를 통합하는 복잡성과 지연 시간을 줄일 수 있습니다.
  • ChatGPT가 "멋진 데모" 모드에 머물러 있고, 프로그램을 설명하는 데 음성을 사용하는 등의 잠재력을 완전히 활용하지 않는다는 비판이 있습니다.