# Tarsier - 웹 인터랙션 에이전트를 위한 비젼 유틸리티

> Clean Markdown view of GeekNews topic #11881. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=11881](https://news.hada.io/topic?id=11881)
- GeekNews Markdown: [https://news.hada.io/topic/11881.md](https://news.hada.io/topic/11881.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-11-16T10:03:01+09:00
- Updated: 2023-11-16T10:03:01+09:00
- Original source: [github.com/reworkd](https://github.com/reworkd/tarsier)
- Points: 6
- Comments: 0

## Topic Body

- GPT-4(V)로 웹 인터랙션을 자동화할 때 생기는 질문들   
  - LLM의 응답을 어떻게 웹 엘리먼트로 매핑할까?  
  - LLM의 작업 공간을 더 잘 이해하기 위해 페이지를 마크업하려면 어떻게 해야 할까?  
  - 텍스트 전용 LLM에 '스크린샷'을 제공하려면 어떻게 해야 하나?  
- Tarsier는 멀티모달 웹 에이전트를 위한 비젼 유틸리티   
  - [1]과 같은 아이디를 통해 페이지의 상호작용 가능한 요소에 시각적으로 '태그'를 붙이는 방식으로 작동  
  - 이를 통해 GPT-4(V)가 작업을 수행할 수 있도록 요소와 ID 간의 매핑을 제공  
  - 상호작용 가능한 요소는 페이지에 표시되는 버튼, 링크 또는 입력 필드로 정의  
  - 페이지의 텍스트 표현을 제공할 수 있음  
    - 즉, 멀티 모달이 아닌 LLM에서도 더 심층적인 상호작용이 가능  
    - 이는 기존 비전 언어 모델의 성능 문제를 고려할 때 중요한 사항  
  - 또한 페이지 스크린샷을 비전 없는 LLM이 이해할 수 있는 공백 구조의 문자열로 변환하는 OCR 유틸리티를 제공  
- 지원되는 OCR 서비스   
  - 현재는 Google Cloud Vision만 지원되며,  Amazon Textract 와 Microsoft Azure Computer Vision 지원 예정

## Comments


_No public comments on this page._