# GPT-4 Vision과 Vimium을 활용한 웹 탐색

> Clean Markdown view of GeekNews topic #11773. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=11773](https://news.hada.io/topic?id=11773)
- GeekNews Markdown: [https://news.hada.io/topic/11773.md](https://news.hada.io/topic/11773.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2023-11-10T09:50:04+09:00
- Updated: 2023-11-10T09:50:04+09:00
- Original source: [github.com/ishan0102](https://github.com/ishan0102/vimGPT)
- Points: 2
- Comments: 1

## Topic Body

### vimGPT: 다중 모달 모델에게 놀이터를 제공하다

#### 개요
- 웹 탐색을 위한 대규모 언어 모델(LLMs)의 활용이 여러 스타트업과 오픈소스 프로젝트에서 탐구 중임.
- GPT-4V의 시각 능력만을 사용하여 웹 브라우징이 가능한지 실험하는 프로젝트에 관심을 가짐.
- 모델이 클릭하고자 하는 대상을 텍스트로 된 브라우저 DOM 없이 파악하기 어려움이 있음.

#### 설정
- 파이썬 요구 사항 설치: `pip install -r requirements.txt`
- Vimium을 로컬로 다운로드하고 Playwright 실행 시 수동으로 확장 프로그램을 로드해야 함: `./setup.sh`

#### 아이디어
- 자동 컨텍스트 검색을 위해 출시되면 Assistant API 사용을 고려 중.
- Vimium을 컨텍스트에 기반하여 요소를 선택적으로 오버레이하는 특수 버전 개발 가능성.
- 낮은 해상도에서 모델이 인식 실패하는 문제를 높은 해상도 이미지 사용으로 개선할 수 있음.
- LLaVa 또는 CogVLM을 미세 조정하여 더 빠르고 저렴하게 만들 수 있음.
- Vision API가 JSON 모드를 지원하면 사용할 계획이나, 현재는 더 원시적인 프롬프팅 방법에 의존해야 함.
- Vision API가 일반적인 지시사항을 반환하고, 이를 JSON 모드 API로 정식화하는 방법을 고려 중.
- 텍스트 입력을 없애고 접근성을 높이기 위해 Whisper 또는 다른 모델을 사용한 음성-텍스트 변환 추가 고려 중.
- 인공 브라우저가 아닌 사용자 자신의 브라우저에서 작동하도록 만들고 싶음.
- 모델이 노란색 사각형 아래를 볼 수 없을 경우를 대비하여 Vimium 활성화 여부에 따른 프레임 제공.
- 이미지 입력 외에 Chrome 접근성 트리를 입력으로 제공하여 Vimium 바인딩에 매핑할 수 있는 인터랙티브 요소의 레이아웃 제공.

#### 참고 자료
- https://github.com/Globe-Engineer/globot
- https://github.com/nat/natbot

### GN⁺의 의견
이 기사에서 가장 중요한 것은 GPT-4V와 같은 대규모 언어 모델을 활용하여 웹 브라우징 경험을 혁신하려는 시도임. Vimium 확장 프로그램을 통해 모델이 웹과 상호작용할 수 있는 방법을 제공하는 것은 흥미로운 접근 방식이며, 이는 웹 접근성과 상호작용성을 향상시킬 잠재력을 가지고 있음. 기술 애호가와 소프트웨어 개발자에게 이러한 실험은 인공지능의 미래와 웹 인터페이스의 진화에 대한 통찰력을 제공하며, 그로 인해 매우 매력적인 주제가 됨.

## Comments


### Comment 20479

- Author: neo
- Created: 2023-11-10T09:50:04+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=38200308) 
- 이제 이런 것이 가능하다는 것이 믿기 어려움:
  - 사용자가 특정 작업을 수행하도록 돕기 위해 선택할 수 있는 옵션으로 'navigate', 'type', 'click', 'done'이 있음.
  - 'navigate'는 지정된 URL로 이동해야 하며, 'type'과 'click'은 문자열을 받아 처리함.
  - 클릭할 때는 노란색 문자 시퀀스를, 타이핑할 때는 메시지를 문자열로 반환해야 함.
  - 페이지가 만족스러우면 'done'을 키로 반환하고, 반드시 JSON 형식으로만 응답해야 함.

- 내 직장에서는 기술 부채가 너무 크기 때문에 수동으로 데이터를 복사하는 사람들이 많음:
  - 이러한 도구들이 기존 문제를 해결할 수 있는 계층으로 작용할 것에 대해 기대감 표현.

- 제작자로부터의 인사말:
  - 프로젝트 공유에 감사하며, 질문이 있으면 알려달라고 요청.
  - README에 다음 단계에 대한 아이디어가 있으니 기여를 환영함.

- vim이 ChatGPT에 적합한 "구현체"라는 의견:
  - 텍스트 스트림으로 모든 것을 할 수 있으며, 인터넷에는 이미 vimscript가 많이 있음.
  - 비슷한 실험을 시작했다고 언급하며 관련 프로젝트 링크 공유.

- GPT-4 Vision을 이용한 스크린샷과 브라우징 작업에 대한 논의:
  - 스크린샷에 정보를 오버레이하는 데 실패한 후, playwright에서 접근성 트리를 텍스트로 가져와 모델에게 상호작용 옵션을 알려주는 방식이 더 나은 결과를 보임.
  - 제작자에게 이 아이디어를 미래의 아이디어 목록에 추가할 것을 제안.

- ChatGPT 인터페이스를 통해 실험한 경험 공유:
  - CSS를 업데이트하여 그라데이션과 둥근 모서리를 제거할 것을 제안.
  - 레드와 볼드한 화이트 텍스트 조합이 가장 일관된 결과를 보임.
  - 폰트 크기를 늘리고, 레이블이 겹칠 경우 분리하고 화살표를 추가할 것을 조언.
  - 주석이 추가된 이미지와 추가되지 않은 이미지 두 가지를 API에 보낼 것을 권장.

- 이러한 도구가 웹 추적이나 광고에 어떤 영향을 미칠지에 대한 질문:
  - 에이전트가 사용자를 대신하여 광고나 팝업 없이 원하는 내용을 찾아주는 '광고 차단기'로서의 잠재력.
  - SEO의 중요성을 감소시키고 인터넷의 질을 향상시킬 수 있음을 상상.
  - 반면에 광고가 가져올 수 있는 부정적인 영향에 대한 우려도 표현.

- 브라우저를 위한 자동 조종 장치를 만들 수 있음:
  - 이 기술이 대규모로 배포되면 봇 트래픽을 구별하기 매우 어려워질 것임.
  - 단기적으로 비용이 저렴하거나 접근 가능하지 않을 것이라는 문제 제기.

- GPT-4V가 웹 스크래핑에 새로운 관점을 제시했다는 긍정적인 의견:
  - 이 코드나 유사한 코드가 여러 프로젝트에 활용될 것으로 예상.
  - 예를 들어, LinkedIn이나 Twitter 같은 웹사이트를 스크래핑하거나, 경쟁사 분석, 산업 분야 이해, 뉴스 획득 등에 사용될 수 있음.

- 실제 사용해본 경험 공유:
  - 클릭 가능한 옵션에 대한 작은 주석이 화면에 종종 나타나지 않아 루프에 빠지는 문제 발생.
  - Twitter에 로그인하는 데 성공했지만, 100개의 이미지 API 제한을 빠르게 소진함.
  - 향후 버전에서는 텍스트 기반 브라우저를 주로 사용하고, 복잡한 상황에서만 비전을 사용하는 방안 제안.