ChatGPT에서 새로운 음성 및 이미지 기능을 도입하기 시작함

(openai.com)

1P by GN⁺ 2023-09-26 | ★ favorite | 댓글 1개

OpenAI, ChatGPT에 새로운 음성 및 이미지 기능 도입
새로운 기능들은 사용자가 음성 대화를 나누거나 ChatGPT에 이미지를 보여주는 등 더 직관적인 인터페이스 제공
사용자들은 랜드마크 사진을 찍어 실시간 대화를 나누거나, 냉장고와 식료품 저장실의 사진을 찍어 저녁 식사 메뉴를 결정하는 등 다양한 방식으로 이 기능들을 활용 가능
다음 두 주 동안 Plus 및 Enterprise 사용자들에게 도입 예정, 음성 기능은 iOS와 Android에서, 이미지 기능은 모든 플랫폼에서 사용 가능
새로운 음성 기능은 텍스트와 몇 초간의 샘플 음성만으로 인간과 같은 오디오를 생성할 수 있는 텍스트-투-스피치 모델에 의해 구동
음성 기능은 전문 음성 배우들과 협업하여 개발되었으며, OpenAI의 오픈 소스 음성 인식 시스템인 Whisper를 사용하여 말한 단어를 텍스트로 변환
이미지 이해 기능은 다양한 이미지에 언어 추론 능력을 적용하는 GPT-3.5와 GPT-4에 의해 구동
OpenAI는 이러한 기능들을 점진적으로 배포하여 안전하고 유익한 사용을 보장하고, 미래의 더 강력한 시스템에 대비하는 사용자들을 준비
새로운 음성 기술은 공공 인물을 가장하거나 사기를 저지르는 악의적인 행위자들에게 잠재적 위험성을 제공
비전 기반 모델들도 새로운 도전을 제시, 예를 들어 사람들에 대한 환각이나 고위험 영역에서 모델의 이미지 해석에 의존하는 문제
OpenAI는 개인의 프라이버시를 존중하기 위해 ChatGPT의 사람들에 대한 분석 및 직접적인 발언 능력을 제한하는 조치를 취함
OpenAI는 모델의 한계에 대해 투명하게 공개, 특히 연구 및 비 로마자 스크립트 언어 분야에서의 한계를 강조
Plus 및 Enterprise 사용자들은 다음 두 주 동안 음성 및 이미지 기능을 체험하게 될 것이며, 개발자를 포함한 다른 사용자 그룹들은 곧 이어서 체험 예정

GN⁺ 2023-09-26 [-]

Hacker News 의견

ChatGPT의 새로운 음성 및 이미지 기능은 잠재력이 있지만, 질의와 응답 사이의 지연 시간이 우려됩니다.
이 기술은 로봇 기획에 사용될 수 있으며, 이는 일반 목적의 로봇이 간단한 노동을 수행하는 데 이르게 할 수 있습니다.
ChatGPT의 발전은 다중 모달 기능을 구축하려던 많은 스타트업을 혼란스럽게 만들 수 있습니다.
적절한 공지 없이 웹 브라우징 기능이 제거된 것에 대한 실망이 있습니다.
새로운 기능은 강인한 AI 기반 이미지 인식을 앱 사용자 인터페이스에 사용하고 실행 가능한 테스트 자동화 코드를 생성하는 데 사용될 수 있습니다.
가장 직관적인 사용자 경험은 텍스트 채팅인 것 같지만, 이미지와의 상호작용도 흥미롭습니다.
이미지 지원의 추가는 학생들이 숙제에 대한 답을 얻기 위해 악용될 수 있습니다.
OpenAI의 새로운 기능과 롤아웃에 대한 커뮤니케이션이 부족하다는 비판이 있습니다.
새로운 기능은 취미 프로젝트에서 다양한 AI 서비스를 통합하는 복잡성과 지연 시간을 줄일 수 있습니다.
ChatGPT가 "멋진 데모" 모드에 머물러 있고, 프로그램을 설명하는 데 음성을 사용하는 등의 잠재력을 완전히 활용하지 않는다는 비판이 있습니다.

답변달기

ChatGPT에서 새로운 음성 및 이미지 기능을 도입하기 시작함

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견