# ChatGPT에서 새로운 음성 및 이미지 기능을 도입하기 시작함

> Clean Markdown view of GeekNews topic #11055. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=11055](https://news.hada.io/topic?id=11055)
- GeekNews Markdown: [https://news.hada.io/topic/11055.md](https://news.hada.io/topic/11055.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-09-26T11:10:00+09:00
- Updated: 2023-09-26T11:10:00+09:00
- Original source: [openai.com](https://openai.com/blog/chatgpt-can-now-see-hear-and-speak)
- Points: 1
- Comments: 1

## Topic Body

- OpenAI, ChatGPT에 새로운 음성 및 이미지 기능 도입
- 새로운 기능들은 사용자가 음성 대화를 나누거나 ChatGPT에 이미지를 보여주는 등 더 직관적인 인터페이스 제공
- 사용자들은 랜드마크 사진을 찍어 실시간 대화를 나누거나, 냉장고와 식료품 저장실의 사진을 찍어 저녁 식사 메뉴를 결정하는 등 다양한 방식으로 이 기능들을 활용 가능
- 다음 두 주 동안 Plus 및 Enterprise 사용자들에게 도입 예정, 음성 기능은 iOS와 Android에서, 이미지 기능은 모든 플랫폼에서 사용 가능
- 새로운 음성 기능은 텍스트와 몇 초간의 샘플 음성만으로 인간과 같은 오디오를 생성할 수 있는 텍스트-투-스피치 모델에 의해 구동
- 음성 기능은 전문 음성 배우들과 협업하여 개발되었으며, OpenAI의 오픈 소스 음성 인식 시스템인 Whisper를 사용하여 말한 단어를 텍스트로 변환
- 이미지 이해 기능은 다양한 이미지에 언어 추론 능력을 적용하는 GPT-3.5와 GPT-4에 의해 구동
- OpenAI는 이러한 기능들을 점진적으로 배포하여 안전하고 유익한 사용을 보장하고, 미래의 더 강력한 시스템에 대비하는 사용자들을 준비
- 새로운 음성 기술은 공공 인물을 가장하거나 사기를 저지르는 악의적인 행위자들에게 잠재적 위험성을 제공
- 비전 기반 모델들도 새로운 도전을 제시, 예를 들어 사람들에 대한 환각이나 고위험 영역에서 모델의 이미지 해석에 의존하는 문제
- OpenAI는 개인의 프라이버시를 존중하기 위해 ChatGPT의 사람들에 대한 분석 및 직접적인 발언 능력을 제한하는 조치를 취함
- OpenAI는 모델의 한계에 대해 투명하게 공개, 특히 연구 및 비 로마자 스크립트 언어 분야에서의 한계를 강조
- Plus 및 Enterprise 사용자들은 다음 두 주 동안 음성 및 이미지 기능을 체험하게 될 것이며, 개발자를 포함한 다른 사용자 그룹들은 곧 이어서 체험 예정

## Comments



### Comment 19508

- Author: neo
- Created: 2023-09-26T11:10:00+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=37642335) 
- ChatGPT의 새로운 음성 및 이미지 기능은 잠재력이 있지만, 질의와 응답 사이의 지연 시간이 우려됩니다.
- 이 기술은 로봇 기획에 사용될 수 있으며, 이는 일반 목적의 로봇이 간단한 노동을 수행하는 데 이르게 할 수 있습니다.
- ChatGPT의 발전은 다중 모달 기능을 구축하려던 많은 스타트업을 혼란스럽게 만들 수 있습니다.
- 적절한 공지 없이 웹 브라우징 기능이 제거된 것에 대한 실망이 있습니다.
- 새로운 기능은 강인한 AI 기반 이미지 인식을 앱 사용자 인터페이스에 사용하고 실행 가능한 테스트 자동화 코드를 생성하는 데 사용될 수 있습니다.
- 가장 직관적인 사용자 경험은 텍스트 채팅인 것 같지만, 이미지와의 상호작용도 흥미롭습니다.
- 이미지 지원의 추가는 학생들이 숙제에 대한 답을 얻기 위해 악용될 수 있습니다.
- OpenAI의 새로운 기능과 롤아웃에 대한 커뮤니케이션이 부족하다는 비판이 있습니다.
- 새로운 기능은 취미 프로젝트에서 다양한 AI 서비스를 통합하는 복잡성과 지연 시간을 줄일 수 있습니다.
- ChatGPT가 "멋진 데모" 모드에 머물러 있고, 프로그램을 설명하는 데 음성을 사용하는 등의 잠재력을 완전히 활용하지 않는다는 비판이 있습니다.
