- OpenAI, ChatGPT에 새로운 음성 및 이미지 기능 도입
- 새로운 기능들은 사용자가 음성 대화를 나누거나 ChatGPT에 이미지를 보여주는 등 더 직관적인 인터페이스 제공
- 사용자들은 랜드마크 사진을 찍어 실시간 대화를 나누거나, 냉장고와 식료품 저장실의 사진을 찍어 저녁 식사 메뉴를 결정하는 등 다양한 방식으로 이 기능들을 활용 가능
- 다음 두 주 동안 Plus 및 Enterprise 사용자들에게 도입 예정, 음성 기능은 iOS와 Android에서, 이미지 기능은 모든 플랫폼에서 사용 가능
- 새로운 음성 기능은 텍스트와 몇 초간의 샘플 음성만으로 인간과 같은 오디오를 생성할 수 있는 텍스트-투-스피치 모델에 의해 구동
- 음성 기능은 전문 음성 배우들과 협업하여 개발되었으며, OpenAI의 오픈 소스 음성 인식 시스템인 Whisper를 사용하여 말한 단어를 텍스트로 변환
- 이미지 이해 기능은 다양한 이미지에 언어 추론 능력을 적용하는 GPT-3.5와 GPT-4에 의해 구동
- OpenAI는 이러한 기능들을 점진적으로 배포하여 안전하고 유익한 사용을 보장하고, 미래의 더 강력한 시스템에 대비하는 사용자들을 준비
- 새로운 음성 기술은 공공 인물을 가장하거나 사기를 저지르는 악의적인 행위자들에게 잠재적 위험성을 제공
- 비전 기반 모델들도 새로운 도전을 제시, 예를 들어 사람들에 대한 환각이나 고위험 영역에서 모델의 이미지 해석에 의존하는 문제
- OpenAI는 개인의 프라이버시를 존중하기 위해 ChatGPT의 사람들에 대한 분석 및 직접적인 발언 능력을 제한하는 조치를 취함
- OpenAI는 모델의 한계에 대해 투명하게 공개, 특히 연구 및 비 로마자 스크립트 언어 분야에서의 한계를 강조
- Plus 및 Enterprise 사용자들은 다음 두 주 동안 음성 및 이미지 기능을 체험하게 될 것이며, 개발자를 포함한 다른 사용자 그룹들은 곧 이어서 체험 예정