비전 언어 모델의 시각적 한계

(vlmsareblind.github.io)

2P by GN⁺ 2024-07-11 | ★ favorite | 댓글 1개

비전 언어 모델은 시각적 과제를 잘 수행하지 못함

요약

비전 언어 모델(VLMs)은 이미지-텍스트 처리 응용 프로그램에서 높은 성능을 보이지만, 인간에게는 매우 쉬운 7가지 시각적 과제에서 실패함.
이 연구는 VLMs의 시각적 인식 능력이 제한적임을 보여줌.

Task 1: 선 교차점 계산

이미지: 두 개의 선분이 교차하는 150개의 2D 선 그래프 생성
질문: "파란색과 빨간색 선이 몇 번 교차하는가?"
결과: 모델들은 교차점을 정확히 계산하지 못함

Task 2: 두 원

이미지: 다양한 크기와 거리, 방향을 가진 두 개의 원을 포함한 672개의 이미지 생성
질문: "두 원이 서로 접촉하는가?" 또는 "두 원이 겹치는가?"
결과: 모델들은 작은 거리에서 일관되게 실패함

Task 3: 원으로 둘러싸인 문자

이미지: 단어의 각 문자를 빨간 원으로 둘러싸는 이미지 생성
질문: "어떤 문자가 원으로 둘러싸여 있는가?"
결과: 모델들은 인접한 문자를 예측하는 경향이 있음

Task 4: 겹치는 도형 계산

이미지: 올림픽 로고와 같은 겹치는 원과 오각형을 포함한 이미지 생성
질문: "이미지에 몇 개의 도형이 있는가?"
결과: 모델들은 도형의 수를 정확히 계산하지 못함

Task 5: 중첩된 사각형 계산

이미지: 중첩된 사각형을 포함한 이미지 생성
질문: "이미지에 총 몇 개의 사각형이 있는가?"
결과: 모델들은 중첩된 사각형의 수를 정확히 계산하지 못함

Task 6: 그리드의 행과 열 계산

이미지: 텍스트가 포함된 그리드와 빈 그리드를 포함한 이미지 생성
질문: "그리드에 몇 개의 행과 열이 있는가?"
결과: 텍스트가 포함된 그리드에서 성능이 향상되었지만, 빈 그리드에서는 실패함

Task 7: 단일 색상의 경로 추적

이미지: 지하철 노선도를 포함한 이미지 생성
질문: "A에서 C로 가는 단일 색상의 경로가 몇 개인가?"
결과: 모델들은 경로의 수를 정확히 계산하지 못함

GN⁺의 정리

이 연구는 비전 언어 모델(VLMs)의 시각적 인식 능력이 제한적임을 보여줌.
VLMs는 인간에게 쉬운 시각적 과제에서 일관되게 실패함.
이는 VLMs의 시각적 인식 능력을 개선하기 위한 추가 연구가 필요함을 시사함.
유사한 기능을 가진 다른 프로젝트로는 OpenAI의 GPT-4와 Google의 Gemini-1.5 Pro가 있음.

GN⁺ 2024-07-11 [-]

Hacker News 의견

결론이 잘못되었다고 생각함
- "근시인 사람의 시야"라는 비유는 과장된 표현임
- GPT-4v가 세밀한 시각 작업을 잘 수행하는 예시가 있음
- 큰 GenAI 모델이 많은 데이터를 학습했을 때 성능이 좋음
- 저자들이 제시한 증거가 부족함
Captcha에 대한 경험 공유
- GPT-4o가 차고 문 문제를 해결하는 데 도움을 줌
- 사진에서 잘못된 설치를 식별했지만, 누락된 너트를 놓침
VLM의 객체 수 세기와 공간 관계 인식 문제
- Microsoft의 Set of Marks가 도움이 될 수 있음
- "말할 수 있는" 레이블 제공이 성능 향상에 기여함
현재 SOTA 모델의 성능에 대한 비판
- 인간에게는 쉬운 작업에서 실패함
- 예: 선 교차 횟수 세기, 원 겹침 감지 등
VLM의 이미지 처리 방식에 대한 의견
- 인간은 관심 영역에 집중할 수 있지만, VLM은 전체 이미지를 동일한 해상도로 처리함
- 상호작용 데이터로 모델을 훈련하는 방법에 대한 궁금증
"Vision language models are blind" 제목이 과장되었다고 생각함
- VLM이 이미지 입력을 처리하는 방식이 다름
- 저해상도에서 세부 사항을 놓칠 수 있음
- 예시로 Sonnet 3.5의 답변이 대체로 정확했지만, 일부 오류가 있었음
모델의 입력 데이터 해석 방식에 대한 이해
- LLM과 다중 모달 모델이 구체적인 추론 능력이 부족함
- 예: ChatGPT가 텍스트 요약은 잘하지만, 단어 수 세기는 잘 못함
- AGI 개발의 핵심 문제는 고수준과 저수준 지능을 결합하는 것임
GPT-4의 수준에 대한 의견
- GPT-4가 고등학교 수준이라는 Mira Murati의 발언 인용
AI가 학교 일정 이미지를 읽는 데 어려움을 겪음
- 특정 날짜를 물어보면 일부는 맞추지만, 일부는 놓치거나 새로운 날짜를 만들어냄
- 노이즈를 제거하면 성능이 약간 향상되지만 여전히 신뢰할 수 없음

답변달기

비전 언어 모델의 시각적 한계

비전 언어 모델은 시각적 과제를 잘 수행하지 못함

요약

Task 1: 선 교차점 계산

Task 2: 두 원

Task 3: 원으로 둘러싸인 문자

Task 4: 겹치는 도형 계산

Task 5: 중첩된 사각형 계산

Task 6: 그리드의 행과 열 계산

Task 7: 단일 색상의 경로 추적

GN⁺의 정리

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견