GPT-4 Vision과 Vimium을 활용한 웹 탐색

(github.com/ishan0102)

2P by GN⁺ 2023-11-10 | ★ favorite | 댓글 1개

vimGPT: 다중 모달 모델에게 놀이터를 제공하다

개요

웹 탐색을 위한 대규모 언어 모델(LLMs)의 활용이 여러 스타트업과 오픈소스 프로젝트에서 탐구 중임.
GPT-4V의 시각 능력만을 사용하여 웹 브라우징이 가능한지 실험하는 프로젝트에 관심을 가짐.
모델이 클릭하고자 하는 대상을 텍스트로 된 브라우저 DOM 없이 파악하기 어려움이 있음.

설정

파이썬 요구 사항 설치: pip install -r requirements.txt
Vimium을 로컬로 다운로드하고 Playwright 실행 시 수동으로 확장 프로그램을 로드해야 함: ./setup.sh

아이디어

자동 컨텍스트 검색을 위해 출시되면 Assistant API 사용을 고려 중.
Vimium을 컨텍스트에 기반하여 요소를 선택적으로 오버레이하는 특수 버전 개발 가능성.
낮은 해상도에서 모델이 인식 실패하는 문제를 높은 해상도 이미지 사용으로 개선할 수 있음.
LLaVa 또는 CogVLM을 미세 조정하여 더 빠르고 저렴하게 만들 수 있음.
Vision API가 JSON 모드를 지원하면 사용할 계획이나, 현재는 더 원시적인 프롬프팅 방법에 의존해야 함.
Vision API가 일반적인 지시사항을 반환하고, 이를 JSON 모드 API로 정식화하는 방법을 고려 중.
텍스트 입력을 없애고 접근성을 높이기 위해 Whisper 또는 다른 모델을 사용한 음성-텍스트 변환 추가 고려 중.
인공 브라우저가 아닌 사용자 자신의 브라우저에서 작동하도록 만들고 싶음.
모델이 노란색 사각형 아래를 볼 수 없을 경우를 대비하여 Vimium 활성화 여부에 따른 프레임 제공.
이미지 입력 외에 Chrome 접근성 트리를 입력으로 제공하여 Vimium 바인딩에 매핑할 수 있는 인터랙티브 요소의 레이아웃 제공.

참고 자료

GN⁺의 의견

이 기사에서 가장 중요한 것은 GPT-4V와 같은 대규모 언어 모델을 활용하여 웹 브라우징 경험을 혁신하려는 시도임. Vimium 확장 프로그램을 통해 모델이 웹과 상호작용할 수 있는 방법을 제공하는 것은 흥미로운 접근 방식이며, 이는 웹 접근성과 상호작용성을 향상시킬 잠재력을 가지고 있음. 기술 애호가와 소프트웨어 개발자에게 이러한 실험은 인공지능의 미래와 웹 인터페이스의 진화에 대한 통찰력을 제공하며, 그로 인해 매우 매력적인 주제가 됨.

GN⁺ 2023-11-10 [-]

Hacker News 의견

이제 이런 것이 가능하다는 것이 믿기 어려움:
- 사용자가 특정 작업을 수행하도록 돕기 위해 선택할 수 있는 옵션으로 'navigate', 'type', 'click', 'done'이 있음.
- 'navigate'는 지정된 URL로 이동해야 하며, 'type'과 'click'은 문자열을 받아 처리함.
- 클릭할 때는 노란색 문자 시퀀스를, 타이핑할 때는 메시지를 문자열로 반환해야 함.
- 페이지가 만족스러우면 'done'을 키로 반환하고, 반드시 JSON 형식으로만 응답해야 함.
내 직장에서는 기술 부채가 너무 크기 때문에 수동으로 데이터를 복사하는 사람들이 많음:
- 이러한 도구들이 기존 문제를 해결할 수 있는 계층으로 작용할 것에 대해 기대감 표현.
제작자로부터의 인사말:
- 프로젝트 공유에 감사하며, 질문이 있으면 알려달라고 요청.
- README에 다음 단계에 대한 아이디어가 있으니 기여를 환영함.
vim이 ChatGPT에 적합한 "구현체"라는 의견:
- 텍스트 스트림으로 모든 것을 할 수 있으며, 인터넷에는 이미 vimscript가 많이 있음.
- 비슷한 실험을 시작했다고 언급하며 관련 프로젝트 링크 공유.
GPT-4 Vision을 이용한 스크린샷과 브라우징 작업에 대한 논의:
- 스크린샷에 정보를 오버레이하는 데 실패한 후, playwright에서 접근성 트리를 텍스트로 가져와 모델에게 상호작용 옵션을 알려주는 방식이 더 나은 결과를 보임.
- 제작자에게 이 아이디어를 미래의 아이디어 목록에 추가할 것을 제안.
ChatGPT 인터페이스를 통해 실험한 경험 공유:
- CSS를 업데이트하여 그라데이션과 둥근 모서리를 제거할 것을 제안.
- 레드와 볼드한 화이트 텍스트 조합이 가장 일관된 결과를 보임.
- 폰트 크기를 늘리고, 레이블이 겹칠 경우 분리하고 화살표를 추가할 것을 조언.
- 주석이 추가된 이미지와 추가되지 않은 이미지 두 가지를 API에 보낼 것을 권장.
이러한 도구가 웹 추적이나 광고에 어떤 영향을 미칠지에 대한 질문:
- 에이전트가 사용자를 대신하여 광고나 팝업 없이 원하는 내용을 찾아주는 '광고 차단기'로서의 잠재력.
- SEO의 중요성을 감소시키고 인터넷의 질을 향상시킬 수 있음을 상상.
- 반면에 광고가 가져올 수 있는 부정적인 영향에 대한 우려도 표현.
브라우저를 위한 자동 조종 장치를 만들 수 있음:
- 이 기술이 대규모로 배포되면 봇 트래픽을 구별하기 매우 어려워질 것임.
- 단기적으로 비용이 저렴하거나 접근 가능하지 않을 것이라는 문제 제기.
GPT-4V가 웹 스크래핑에 새로운 관점을 제시했다는 긍정적인 의견:
- 이 코드나 유사한 코드가 여러 프로젝트에 활용될 것으로 예상.
- 예를 들어, LinkedIn이나 Twitter 같은 웹사이트를 스크래핑하거나, 경쟁사 분석, 산업 분야 이해, 뉴스 획득 등에 사용될 수 있음.
실제 사용해본 경험 공유:
- 클릭 가능한 옵션에 대한 작은 주석이 화면에 종종 나타나지 않아 루프에 빠지는 문제 발생.
- Twitter에 로그인하는 데 성공했지만, 100개의 이미지 API 제한을 빠르게 소진함.
- 향후 버전에서는 텍스트 기반 브라우저를 주로 사용하고, 복잡한 상황에서만 비전을 사용하는 방안 제안.

답변달기