- 2023년 9월 25일, OpenAI는 고급 모델인 GPT-4의 두 가지 새로운 기능 출시를 발표
- 이 새로운 기능들은 사용자가 이미지에 대해 질문을 하고, 음성을 쿼리 입력으로 사용할 수 있게 하여, GPT-4가 다중 모드 모델로 전환하게 됨
- GPT-4V(ision) 또는 GPT-4V는 사용자가 이미지를 입력으로 업로드하고 이미지에 대한 질문을 할 수 있는 다중 모드 모델로, 이는 시각적 질문 응답(VQA)이라는 작업으로 알려져 있음
- GPT-4V는 시각적 질문 응답, 광학 문자 인식(OCR), 수학 OCR, 객체 탐지, CAPTCHA, 크로스워드, 스도쿠 등 다양한 작업에서 테스트됨
- 이 모델은 일반적인 이미지 질문에서 잘 수행되었으며, 일부 이미지에서 문맥 인식을 보였습니다. 또한, 영화가 어떤 것인지 텍스트로 알려주지 않아도 이미지에 표시된 영화에 대한 질문에 성공적으로 답변할 수 있었음
- 그러나, GPT-4V에는 한계가 있음. 객체 탐지를 위한 경계 상자를 정확하게 반환하지 못했으며, 이는 현재로서는 이러한 용도로 적합하지 않음을 나타냄. 또한, Hallucination으로 부정확한 정보를 반환하기도 함
- OpenAI는 비전 모델의 알파 버전을 소수의 사용자 그룹에게 제공하여 연구를 수행하고, 다양한 사람들이 제공하는 프롬프트를 통해 GPT-4V가 어떻게 작동하는지에 대한 피드백과 통찰을 얻었음
- OpenAI는 모델과 관련된 여러 위험을 파악하고, 연구하고, 완화하려고 노력했음. 예를 들어, GPT-4V는 이미지에서 특정 사람을 식별하는 것을 피하고, 혐오 심볼에 관련된 프롬프트에는 응답하지 않음
- 한계에도 불구하고, GPT-4V는 기계 학습과 자연어 처리 분야에서 주목할 만한 움직임