2P by neo 6달전 | favorite | 댓글 1개

vimGPT: 다중 모달 모델에게 놀이터를 제공하다

개요

  • 웹 탐색을 위한 대규모 언어 모델(LLMs)의 활용이 여러 스타트업과 오픈소스 프로젝트에서 탐구 중임.
  • GPT-4V의 시각 능력만을 사용하여 웹 브라우징이 가능한지 실험하는 프로젝트에 관심을 가짐.
  • 모델이 클릭하고자 하는 대상을 텍스트로 된 브라우저 DOM 없이 파악하기 어려움이 있음.

설정

  • 파이썬 요구 사항 설치: pip install -r requirements.txt
  • Vimium을 로컬로 다운로드하고 Playwright 실행 시 수동으로 확장 프로그램을 로드해야 함: ./setup.sh

아이디어

  • 자동 컨텍스트 검색을 위해 출시되면 Assistant API 사용을 고려 중.
  • Vimium을 컨텍스트에 기반하여 요소를 선택적으로 오버레이하는 특수 버전 개발 가능성.
  • 낮은 해상도에서 모델이 인식 실패하는 문제를 높은 해상도 이미지 사용으로 개선할 수 있음.
  • LLaVa 또는 CogVLM을 미세 조정하여 더 빠르고 저렴하게 만들 수 있음.
  • Vision API가 JSON 모드를 지원하면 사용할 계획이나, 현재는 더 원시적인 프롬프팅 방법에 의존해야 함.
  • Vision API가 일반적인 지시사항을 반환하고, 이를 JSON 모드 API로 정식화하는 방법을 고려 중.
  • 텍스트 입력을 없애고 접근성을 높이기 위해 Whisper 또는 다른 모델을 사용한 음성-텍스트 변환 추가 고려 중.
  • 인공 브라우저가 아닌 사용자 자신의 브라우저에서 작동하도록 만들고 싶음.
  • 모델이 노란색 사각형 아래를 볼 수 없을 경우를 대비하여 Vimium 활성화 여부에 따른 프레임 제공.
  • 이미지 입력 외에 Chrome 접근성 트리를 입력으로 제공하여 Vimium 바인딩에 매핑할 수 있는 인터랙티브 요소의 레이아웃 제공.

참고 자료

GN⁺의 의견

이 기사에서 가장 중요한 것은 GPT-4V와 같은 대규모 언어 모델을 활용하여 웹 브라우징 경험을 혁신하려는 시도임. Vimium 확장 프로그램을 통해 모델이 웹과 상호작용할 수 있는 방법을 제공하는 것은 흥미로운 접근 방식이며, 이는 웹 접근성과 상호작용성을 향상시킬 잠재력을 가지고 있음. 기술 애호가와 소프트웨어 개발자에게 이러한 실험은 인공지능의 미래와 웹 인터페이스의 진화에 대한 통찰력을 제공하며, 그로 인해 매우 매력적인 주제가 됨.

Hacker News 의견
  • 이제 이런 것이 가능하다는 것이 믿기 어려움:

    • 사용자가 특정 작업을 수행하도록 돕기 위해 선택할 수 있는 옵션으로 'navigate', 'type', 'click', 'done'이 있음.
    • 'navigate'는 지정된 URL로 이동해야 하며, 'type'과 'click'은 문자열을 받아 처리함.
    • 클릭할 때는 노란색 문자 시퀀스를, 타이핑할 때는 메시지를 문자열로 반환해야 함.
    • 페이지가 만족스러우면 'done'을 키로 반환하고, 반드시 JSON 형식으로만 응답해야 함.
  • 내 직장에서는 기술 부채가 너무 크기 때문에 수동으로 데이터를 복사하는 사람들이 많음:

    • 이러한 도구들이 기존 문제를 해결할 수 있는 계층으로 작용할 것에 대해 기대감 표현.
  • 제작자로부터의 인사말:

    • 프로젝트 공유에 감사하며, 질문이 있으면 알려달라고 요청.
    • README에 다음 단계에 대한 아이디어가 있으니 기여를 환영함.
  • vim이 ChatGPT에 적합한 "구현체"라는 의견:

    • 텍스트 스트림으로 모든 것을 할 수 있으며, 인터넷에는 이미 vimscript가 많이 있음.
    • 비슷한 실험을 시작했다고 언급하며 관련 프로젝트 링크 공유.
  • GPT-4 Vision을 이용한 스크린샷과 브라우징 작업에 대한 논의:

    • 스크린샷에 정보를 오버레이하는 데 실패한 후, playwright에서 접근성 트리를 텍스트로 가져와 모델에게 상호작용 옵션을 알려주는 방식이 더 나은 결과를 보임.
    • 제작자에게 이 아이디어를 미래의 아이디어 목록에 추가할 것을 제안.
  • ChatGPT 인터페이스를 통해 실험한 경험 공유:

    • CSS를 업데이트하여 그라데이션과 둥근 모서리를 제거할 것을 제안.
    • 레드와 볼드한 화이트 텍스트 조합이 가장 일관된 결과를 보임.
    • 폰트 크기를 늘리고, 레이블이 겹칠 경우 분리하고 화살표를 추가할 것을 조언.
    • 주석이 추가된 이미지와 추가되지 않은 이미지 두 가지를 API에 보낼 것을 권장.
  • 이러한 도구가 웹 추적이나 광고에 어떤 영향을 미칠지에 대한 질문:

    • 에이전트가 사용자를 대신하여 광고나 팝업 없이 원하는 내용을 찾아주는 '광고 차단기'로서의 잠재력.
    • SEO의 중요성을 감소시키고 인터넷의 질을 향상시킬 수 있음을 상상.
    • 반면에 광고가 가져올 수 있는 부정적인 영향에 대한 우려도 표현.
  • 브라우저를 위한 자동 조종 장치를 만들 수 있음:

    • 이 기술이 대규모로 배포되면 봇 트래픽을 구별하기 매우 어려워질 것임.
    • 단기적으로 비용이 저렴하거나 접근 가능하지 않을 것이라는 문제 제기.
  • GPT-4V가 웹 스크래핑에 새로운 관점을 제시했다는 긍정적인 의견:

    • 이 코드나 유사한 코드가 여러 프로젝트에 활용될 것으로 예상.
    • 예를 들어, LinkedIn이나 Twitter 같은 웹사이트를 스크래핑하거나, 경쟁사 분석, 산업 분야 이해, 뉴스 획득 등에 사용될 수 있음.
  • 실제 사용해본 경험 공유:

    • 클릭 가능한 옵션에 대한 작은 주석이 화면에 종종 나타나지 않아 루프에 빠지는 문제 발생.
    • Twitter에 로그인하는 데 성공했지만, 100개의 이미지 API 제한을 빠르게 소진함.
    • 향후 버전에서는 텍스트 기반 브라우저를 주로 사용하고, 복잡한 상황에서만 비전을 사용하는 방안 제안.