2P by neo 5달전 | favorite | 댓글 1개

비전 언어 모델은 시각적 과제를 잘 수행하지 못함

요약

  • 비전 언어 모델(VLMs)은 이미지-텍스트 처리 응용 프로그램에서 높은 성능을 보이지만, 인간에게는 매우 쉬운 7가지 시각적 과제에서 실패함.
  • 이 연구는 VLMs의 시각적 인식 능력이 제한적임을 보여줌.

Task 1: 선 교차점 계산

  • 이미지: 두 개의 선분이 교차하는 150개의 2D 선 그래프 생성
  • 질문: "파란색과 빨간색 선이 몇 번 교차하는가?"
  • 결과: 모델들은 교차점을 정확히 계산하지 못함

Task 2: 두 원

  • 이미지: 다양한 크기와 거리, 방향을 가진 두 개의 원을 포함한 672개의 이미지 생성
  • 질문: "두 원이 서로 접촉하는가?" 또는 "두 원이 겹치는가?"
  • 결과: 모델들은 작은 거리에서 일관되게 실패함

Task 3: 원으로 둘러싸인 문자

  • 이미지: 단어의 각 문자를 빨간 원으로 둘러싸는 이미지 생성
  • 질문: "어떤 문자가 원으로 둘러싸여 있는가?"
  • 결과: 모델들은 인접한 문자를 예측하는 경향이 있음

Task 4: 겹치는 도형 계산

  • 이미지: 올림픽 로고와 같은 겹치는 원과 오각형을 포함한 이미지 생성
  • 질문: "이미지에 몇 개의 도형이 있는가?"
  • 결과: 모델들은 도형의 수를 정확히 계산하지 못함

Task 5: 중첩된 사각형 계산

  • 이미지: 중첩된 사각형을 포함한 이미지 생성
  • 질문: "이미지에 총 몇 개의 사각형이 있는가?"
  • 결과: 모델들은 중첩된 사각형의 수를 정확히 계산하지 못함

Task 6: 그리드의 행과 열 계산

  • 이미지: 텍스트가 포함된 그리드와 빈 그리드를 포함한 이미지 생성
  • 질문: "그리드에 몇 개의 행과 열이 있는가?"
  • 결과: 텍스트가 포함된 그리드에서 성능이 향상되었지만, 빈 그리드에서는 실패함

Task 7: 단일 색상의 경로 추적

  • 이미지: 지하철 노선도를 포함한 이미지 생성
  • 질문: "A에서 C로 가는 단일 색상의 경로가 몇 개인가?"
  • 결과: 모델들은 경로의 수를 정확히 계산하지 못함

GN⁺의 정리

  • 이 연구는 비전 언어 모델(VLMs)의 시각적 인식 능력이 제한적임을 보여줌.
  • VLMs는 인간에게 쉬운 시각적 과제에서 일관되게 실패함.
  • 이는 VLMs의 시각적 인식 능력을 개선하기 위한 추가 연구가 필요함을 시사함.
  • 유사한 기능을 가진 다른 프로젝트로는 OpenAI의 GPT-4와 Google의 Gemini-1.5 Pro가 있음.
Hacker News 의견
  • 결론이 잘못되었다고 생각함

    • "근시인 사람의 시야"라는 비유는 과장된 표현임
    • GPT-4v가 세밀한 시각 작업을 잘 수행하는 예시가 있음
    • 큰 GenAI 모델이 많은 데이터를 학습했을 때 성능이 좋음
    • 저자들이 제시한 증거가 부족함
  • Captcha에 대한 경험 공유

    • GPT-4o가 차고 문 문제를 해결하는 데 도움을 줌
    • 사진에서 잘못된 설치를 식별했지만, 누락된 너트를 놓침
  • VLM의 객체 수 세기와 공간 관계 인식 문제

    • Microsoft의 Set of Marks가 도움이 될 수 있음
    • "말할 수 있는" 레이블 제공이 성능 향상에 기여함
  • 현재 SOTA 모델의 성능에 대한 비판

    • 인간에게는 쉬운 작업에서 실패함
    • 예: 선 교차 횟수 세기, 원 겹침 감지 등
  • VLM의 이미지 처리 방식에 대한 의견

    • 인간은 관심 영역에 집중할 수 있지만, VLM은 전체 이미지를 동일한 해상도로 처리함
    • 상호작용 데이터로 모델을 훈련하는 방법에 대한 궁금증
  • "Vision language models are blind" 제목이 과장되었다고 생각함

    • VLM이 이미지 입력을 처리하는 방식이 다름
    • 저해상도에서 세부 사항을 놓칠 수 있음
    • 예시로 Sonnet 3.5의 답변이 대체로 정확했지만, 일부 오류가 있었음
  • 모델의 입력 데이터 해석 방식에 대한 이해

    • LLM과 다중 모달 모델이 구체적인 추론 능력이 부족함
    • 예: ChatGPT가 텍스트 요약은 잘하지만, 단어 수 세기는 잘 못함
    • AGI 개발의 핵심 문제는 고수준과 저수준 지능을 결합하는 것임
  • GPT-4의 수준에 대한 의견

    • GPT-4가 고등학교 수준이라는 Mira Murati의 발언 인용
  • AI가 학교 일정 이미지를 읽는 데 어려움을 겪음

    • 특정 날짜를 물어보면 일부는 맞추지만, 일부는 놓치거나 새로운 날짜를 만들어냄
    • 노이즈를 제거하면 성능이 약간 향상되지만 여전히 신뢰할 수 없음