GPT-4V(ision) 첫 인상

(blog.roboflow.com)

1P by GN⁺ 2023-09-29 | ★ favorite | 댓글 1개

2023년 9월 25일, OpenAI는 고급 모델인 GPT-4의 두 가지 새로운 기능 출시를 발표
이 새로운 기능들은 사용자가 이미지에 대해 질문을 하고, 음성을 쿼리 입력으로 사용할 수 있게 하여, GPT-4가 다중 모드 모델로 전환하게 됨
GPT-4V(ision) 또는 GPT-4V는 사용자가 이미지를 입력으로 업로드하고 이미지에 대한 질문을 할 수 있는 다중 모드 모델로, 이는 시각적 질문 응답(VQA)이라는 작업으로 알려져 있음
GPT-4V는 시각적 질문 응답, 광학 문자 인식(OCR), 수학 OCR, 객체 탐지, CAPTCHA, 크로스워드, 스도쿠 등 다양한 작업에서 테스트됨
이 모델은 일반적인 이미지 질문에서 잘 수행되었으며, 일부 이미지에서 문맥 인식을 보였습니다. 또한, 영화가 어떤 것인지 텍스트로 알려주지 않아도 이미지에 표시된 영화에 대한 질문에 성공적으로 답변할 수 있었음
그러나, GPT-4V에는 한계가 있음. 객체 탐지를 위한 경계 상자를 정확하게 반환하지 못했으며, 이는 현재로서는 이러한 용도로 적합하지 않음을 나타냄. 또한, Hallucination으로 부정확한 정보를 반환하기도 함
OpenAI는 비전 모델의 알파 버전을 소수의 사용자 그룹에게 제공하여 연구를 수행하고, 다양한 사람들이 제공하는 프롬프트를 통해 GPT-4V가 어떻게 작동하는지에 대한 피드백과 통찰을 얻었음
OpenAI는 모델과 관련된 여러 위험을 파악하고, 연구하고, 완화하려고 노력했음. 예를 들어, GPT-4V는 이미지에서 특정 사람을 식별하는 것을 피하고, 혐오 심볼에 관련된 프롬프트에는 응답하지 않음
한계에도 불구하고, GPT-4V는 기계 학습과 자연어 처리 분야에서 주목할 만한 움직임

▲

GN⁺ 2023-09-29 [-]

Hacker News 의견

AI 모델인 GPT-4V의 잠재력에 대한 기사, 다양한 장치와 응용 프로그램에 대한 우수한 사용자 인터페이스가 될 수 있다고 예측.
몇 가지 극단적인 실패에도 불구하고, AI의 UI 요소와 레이아웃을 이해하고 상호작용하는 능력은 인상적.
GPT-4V는 만화 이미지를 패널별로 정확하게 설명할 수 있어 고급 컴퓨터 비전 능력을 보여줌.
AI의 이미지에서 유머를 해석하는 능력은 지난 10년 동안 크게 향상됨.
GPT-4V의 일부 제한사항으로는 게임 보드의 구조를 잘못 해석하거나 이미지의 특정 요소를 놓치는 것이 포함됨.
AI는 NVIDIA의 GPU 가격 전략에 대한 농담을 정확하게 설명하지 못함.
GPT-4V의 응답은 특히 동전 세트에서 통화를 해석할 때 일관성이 없을 수 있음.
AI는 주관적인 질문에 대답하는 데 종종 주저함, 일부 사용자의 불만을 초래함.
고급 기능에도 불구하고, GPT-4V는 틱택토와 같은 간단한 게임에서 여전히 어려움을 겪음.

답변달기