GN⁺: 비전 언어 모델의 시각적 한계
(vlmsareblind.github.io)비전 언어 모델은 시각적 과제를 잘 수행하지 못함
요약
- 비전 언어 모델(VLMs)은 이미지-텍스트 처리 응용 프로그램에서 높은 성능을 보이지만, 인간에게는 매우 쉬운 7가지 시각적 과제에서 실패함.
- 이 연구는 VLMs의 시각적 인식 능력이 제한적임을 보여줌.
Task 1: 선 교차점 계산
- 이미지: 두 개의 선분이 교차하는 150개의 2D 선 그래프 생성
- 질문: "파란색과 빨간색 선이 몇 번 교차하는가?"
- 결과: 모델들은 교차점을 정확히 계산하지 못함
Task 2: 두 원
- 이미지: 다양한 크기와 거리, 방향을 가진 두 개의 원을 포함한 672개의 이미지 생성
- 질문: "두 원이 서로 접촉하는가?" 또는 "두 원이 겹치는가?"
- 결과: 모델들은 작은 거리에서 일관되게 실패함
Task 3: 원으로 둘러싸인 문자
- 이미지: 단어의 각 문자를 빨간 원으로 둘러싸는 이미지 생성
- 질문: "어떤 문자가 원으로 둘러싸여 있는가?"
- 결과: 모델들은 인접한 문자를 예측하는 경향이 있음
Task 4: 겹치는 도형 계산
- 이미지: 올림픽 로고와 같은 겹치는 원과 오각형을 포함한 이미지 생성
- 질문: "이미지에 몇 개의 도형이 있는가?"
- 결과: 모델들은 도형의 수를 정확히 계산하지 못함
Task 5: 중첩된 사각형 계산
- 이미지: 중첩된 사각형을 포함한 이미지 생성
- 질문: "이미지에 총 몇 개의 사각형이 있는가?"
- 결과: 모델들은 중첩된 사각형의 수를 정확히 계산하지 못함
Task 6: 그리드의 행과 열 계산
- 이미지: 텍스트가 포함된 그리드와 빈 그리드를 포함한 이미지 생성
- 질문: "그리드에 몇 개의 행과 열이 있는가?"
- 결과: 텍스트가 포함된 그리드에서 성능이 향상되었지만, 빈 그리드에서는 실패함
Task 7: 단일 색상의 경로 추적
- 이미지: 지하철 노선도를 포함한 이미지 생성
- 질문: "A에서 C로 가는 단일 색상의 경로가 몇 개인가?"
- 결과: 모델들은 경로의 수를 정확히 계산하지 못함
GN⁺의 정리
- 이 연구는 비전 언어 모델(VLMs)의 시각적 인식 능력이 제한적임을 보여줌.
- VLMs는 인간에게 쉬운 시각적 과제에서 일관되게 실패함.
- 이는 VLMs의 시각적 인식 능력을 개선하기 위한 추가 연구가 필요함을 시사함.
- 유사한 기능을 가진 다른 프로젝트로는 OpenAI의 GPT-4와 Google의 Gemini-1.5 Pro가 있음.
Hacker News 의견
-
결론이 잘못되었다고 생각함
- "근시인 사람의 시야"라는 비유는 과장된 표현임
- GPT-4v가 세밀한 시각 작업을 잘 수행하는 예시가 있음
- 큰 GenAI 모델이 많은 데이터를 학습했을 때 성능이 좋음
- 저자들이 제시한 증거가 부족함
-
Captcha에 대한 경험 공유
- GPT-4o가 차고 문 문제를 해결하는 데 도움을 줌
- 사진에서 잘못된 설치를 식별했지만, 누락된 너트를 놓침
-
VLM의 객체 수 세기와 공간 관계 인식 문제
- Microsoft의 Set of Marks가 도움이 될 수 있음
- "말할 수 있는" 레이블 제공이 성능 향상에 기여함
-
현재 SOTA 모델의 성능에 대한 비판
- 인간에게는 쉬운 작업에서 실패함
- 예: 선 교차 횟수 세기, 원 겹침 감지 등
-
VLM의 이미지 처리 방식에 대한 의견
- 인간은 관심 영역에 집중할 수 있지만, VLM은 전체 이미지를 동일한 해상도로 처리함
- 상호작용 데이터로 모델을 훈련하는 방법에 대한 궁금증
-
"Vision language models are blind" 제목이 과장되었다고 생각함
- VLM이 이미지 입력을 처리하는 방식이 다름
- 저해상도에서 세부 사항을 놓칠 수 있음
- 예시로 Sonnet 3.5의 답변이 대체로 정확했지만, 일부 오류가 있었음
-
모델의 입력 데이터 해석 방식에 대한 이해
- LLM과 다중 모달 모델이 구체적인 추론 능력이 부족함
- 예: ChatGPT가 텍스트 요약은 잘하지만, 단어 수 세기는 잘 못함
- AGI 개발의 핵심 문제는 고수준과 저수준 지능을 결합하는 것임
-
GPT-4의 수준에 대한 의견
- GPT-4가 고등학교 수준이라는 Mira Murati의 발언 인용
-
AI가 학교 일정 이미지를 읽는 데 어려움을 겪음
- 특정 날짜를 물어보면 일부는 맞추지만, 일부는 놓치거나 새로운 날짜를 만들어냄
- 노이즈를 제거하면 성능이 약간 향상되지만 여전히 신뢰할 수 없음