Tarsier - 웹 인터랙션 에이전트를 위한 비젼 유틸리티

(github.com/reworkd)

GPT-4(V)로 웹 인터랙션을 자동화할 때 생기는 질문들
- LLM의 응답을 어떻게 웹 엘리먼트로 매핑할까?
- LLM의 작업 공간을 더 잘 이해하기 위해 페이지를 마크업하려면 어떻게 해야 할까?
- 텍스트 전용 LLM에 '스크린샷'을 제공하려면 어떻게 해야 하나?
Tarsier는 멀티모달 웹 에이전트를 위한 비젼 유틸리티
- [1]과 같은 아이디를 통해 페이지의 상호작용 가능한 요소에 시각적으로 '태그'를 붙이는 방식으로 작동
- 이를 통해 GPT-4(V)가 작업을 수행할 수 있도록 요소와 ID 간의 매핑을 제공
- 상호작용 가능한 요소는 페이지에 표시되는 버튼, 링크 또는 입력 필드로 정의
- 페이지의 텍스트 표현을 제공할 수 있음
  - 즉, 멀티 모달이 아닌 LLM에서도 더 심층적인 상호작용이 가능
  - 이는 기존 비전 언어 모델의 성능 문제를 고려할 때 중요한 사항
- 또한 페이지 스크린샷을 비전 없는 LLM이 이해할 수 있는 공백 구조의 문자열로 변환하는 OCR 유틸리티를 제공
지원되는 OCR 서비스
- 현재는 Google Cloud Vision만 지원되며, Amazon Textract 와 Microsoft Azure Computer Vision 지원 예정