Fara-7B: 컴퓨터 사용을 위한 효율적인 에이전트형 모델

(github.com/microsoft)

3P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Fara-7B는 70억 개의 파라미터로 구성된 초소형 에이전트형 언어 모델(SLM) 로, 웹 브라우저를 실제로 조작하며 작업을 수행하는 Computer Use Agent 구조
마우스와 키보드 입력을 직접 예측해 시각적으로 웹페이지를 인식하고 조작하며, 별도의 접근성 트리나 파싱 모델 없이 인간과 동일한 방식으로 상호작용
온디바이스 실행이 가능해 지연시간을 줄이고 개인정보 보호를 강화하며, 평균 16단계 내에 작업을 완료해 동급 모델 대비 효율성 향상
WebTailBench 등 다양한 벤치마크에서 동급 및 대형 모델을 능가하는 성능을 기록, 특히 웹 자동화와 다단계 작업에서 높은 성공률 달성
Microsoft가 공개한 WebTailBench 데이터셋과 함께, 웹 기반 에이전트 평가 및 재현 가능한 실험 환경을 제공해 실제 웹 상호작용 연구의 표준화에 기여

Fara-7B 개요

Microsoft의 첫 컴퓨터 사용 전용 에이전트형 소형 언어 모델(SLM) 로, 70억 파라미터 규모에서 최신 성능을 달성
Qwen2.5-VL-7B를 기반으로, Magentic-One 멀티에이전트 프레임워크를 활용한 합성 데이터(145,000개 경로)로 학습
7B 파라미터로 구성되어 로컬 실행 가능, 지연시간 감소 및 데이터 프라이버시 강화

주요 특징

시각적 조작 기반으로 웹페이지를 인식하고, 스크롤·클릭·입력 등 실제 사용자 행동을 모방
인간과 동일한 입력 모달리티를 사용하며, 별도의 파싱 모델 불필요
평균 16단계로 작업을 완료해, 유사 모델(평균 41단계) 대비 효율성 향상
온디바이스 배포로 클라우드 의존도 감소 및 개인 데이터 보호 강화

지원 기능

웹 검색 및 결과 요약
폼 입력, 계정 관리
항공권·영화·식당 예약
온라인 쇼핑 및 가격 비교
구인·부동산 정보 탐색

성능 비교

WebVoyager, Online-M2W, DeepShop, WebTailBench 등 4개 벤치마크에서 평가
Fara-7B는 WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4% 의 성공률 기록
동급 모델(UI-TARS-1.5-7B) 및 대형 모델(GLM-4.1V-9B)보다 높은 성능

WebTailBench 벤치마크

11개 실제 웹 작업 유형을 포함한 609개 과제로 구성
단일 사이트 작업(쇼핑, 항공, 호텔 등)과 다단계 작업(비교 쇼핑, 조합형 작업 등)을 포함
Fara-7B는 모든 범주에서 컴퓨터 사용 모델 중 최고 성능 기록
- 예: 호텔 53.8%, 항공 37.9%, 쇼핑 52.4%, 비교 쇼핑 32.7%

평가 인프라

Playwright를 사용해 실제 브라우저 환경을 재현
Abstract Web Agent Interface로 다양한 모델 통합 가능
Fara-Agent Class를 통해 모델 실행 및 테스트 지원
실험적 공개 버전으로, 샌드박스 환경에서의 실행 및 민감 데이터 사용 제한 권장

설치 및 실행

pip install -e . 또는 uv sync --all-extras로 설치
Playwright 브라우저 설치 필요
Azure Foundry를 통한 클라우드 호스팅 또는 VLLM을 이용한 GPU 자가 호스팅 지원

명령 예시:

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

재현성 및 평가 환경

WebVoyager와 OnlineMind2Web 평가를 재현할 수 있는 webeval/ 프레임워크 제공
BrowserBase 통합으로 안정적인 브라우저 세션 관리
시간 민감 작업 업데이트, 환경 오류 처리, 100단계 제한 등 평가 일관성 확보
WebVoyager 데이터셋의 불가능한 작업 48개 제거, 미래 날짜 50개 갱신

평가 실행 및 분석

webeval/scripts 디렉터리에서 평가 스크립트 실행
VLLM 자가 호스팅 또는 Azure Foundry 엔드포인트 방식 선택 가능
결과는 gpt_eval/, traj/, screenshot_X.png 등으로 저장
Jupyter Notebook을 이용해 평균 점수, 실패 원인, 중단된 경로 분석 가능

향후 계획

LLM-as-a-judge 평가용 검증 파이프라인 및 WebTailBench의 공식 인간 주석 데이터 공개 예정
BrowserBase와의 협업을 통한 평가 품질 향상

인용 정보

연구 사용 시 Microsoft Research의 Fara: Fast and Accurate Web Agent (2025) 논문 인용 권장

▲

GN⁺ 3달전 [-]

Hacker News 의견

Microsoft가 Qwen2.5-VL-7B를 파인튜닝했다는 점이 핵심임
이게 이번 논의의 진짜 출발점이라고 생각함. 다른 대형 기업들도 이런 식으로 외부 모델을 파인튜닝한 적이 있었는지 궁금함
그냥 Qwen2.5-VL에 Microsoft 스티커만 붙인 느낌임
이제는 중국 기업들이 선도하고 있는 것 같음
- 맞음. 예를 들어 Fara-7B는 제1차 세계대전의 솜 전투에 대해서는 잘 대답하지만, 톈안먼 사건에 대해서는 “민감한 정치적 주제라 답변할 수 없다”고 회피함
새로운 웹 작업 벤치마크인 WebTailBench가 공개된 것이 진짜 포인트임
Microsoft가 왜 계속 합성 데이터(synthetic data) 로 학습한 모델만 내놓는지 의문임
혹시 OpenAI와의 계약 때문에 자체 LLM을 못 만드는 건 아닐까 생각함. Meta만이 미국 내에서 대형 오픈소스 모델을 내놓고 있고, 중국 기업들은 완전한 공개 모델을 계속 내놓는 중임
- 계약상 제약은 없을 거라고 봄. 단지 또 다른 기초 모델(foundation model) 을 만드는 데 자원을 낭비하고 싶지 않은 것 같음
  이번 모델은 컴퓨터 제어용이라 합성 데이터가 적합함. 실제 데이터셋이 거의 없기 때문임.
  중국 기업들이 오픈소스를 택하는 이유는 신뢰 확보와 마케팅 차별화 목적이 큼
- 법무팀이 그렇게 하라고 했을 가능성이 큼. 대기업은 본질적으로 혁신 불가능한 구조를 가지고 있음
- Gemma, Phi, OLMO, Mistral, GPT-OSS 같은 모델들도 충분히 경쟁력 있고 일반 하드웨어에서도 잘 돌아감
- 합성 데이터 학습이 훨씬 효율적임. 실제 데이터는 다음 토큰만 알지만, 합성 데이터는 확률 분포 전체를 알 수 있어서 학습 효과가 배가됨
  관련 논문: https://arxiv.org/pdf/2504.14772v1
- 합성 데이터만 쓰는 게 더 안전함. 성인 콘텐츠나 역할극 같은 문제를 피할 수 있음
모델이 브라우저 사용에만 제한된 것 같음. 예를 들어 KiCAD 같은 일반 프로그램은 제어 불가함
나는 Qwen3-VL-30B를 Playwright와 함께 써봤는데, 브라우저 자동화에는 꽤 괜찮았음. 다만 반복 작업은 결국 코드로 캡처해야 함
이 모델은 그보다 작지만 특화된 목적으로 만들어졌다는 점이 흥미로움
- 이런 CUA 액션을 결정적 스크립트로 변환하고 싶다면 Stagehand 캐싱 가이드를 참고해볼 만함
- 브라우저 내에서 WASM으로 에뮬레이션하면 가능함. 이건 모델 한계보다 보안 샌드박스 제약 때문임
- 관련 도구나 코드가 있다면 공유해달라는 요청이 있음
- 실제로 테스트해보니 Playwright 환경에서만 작동함
표를 보니 대부분의 사용 사례를 잘 모르겠음. 쇼핑 비교 정도만 이해됨
사람들이 진짜로 쇼핑을 AI에 외주 주는 건가 싶음
- 꼭 소비자만을 위한 건 아님. 예를 들어 API가 없는 보험사 웹사이트 같은 곳을 자동화할 때 유용함
- 카테고리별 상품을 모아 요약해주는 건 꽤 쓸모 있는 기능임
- AI가 대신 결제하거나 예약하는 건 꺼림칙함. 대신 조사와 탐색까지만 맡기고 싶음
- 나는 실제로 와인 쇼핑을 AI에게 맡기고 있음
이런 자동화는 이미 수년 전부터 가능했음. GPU도 필요 없고, 인터페이스가 바뀌면 스크립트만 수정하면 됨
Microsoft가 그냥 AI 실험을 마구 던져보는 중인 것 같음
- 핵심은 스크립트를 직접 짜지 않아도 10억 개 이상의 웹사이트를 대상으로 자동화를 할 수 있다는 점임
  모델은 페이지 스크린샷과 목표를 입력받고, 그 목표를 향한 자동화 명령을 생성함
이런 모델이 비디오게임 입력 제어에도 쓸 수 있을지 궁금함. Kerbal Space Program을 AI가 플레이하면 재밌을 것 같음
- 예전부터 이런 실험이 있었음. kRPC를 이용하면 모델이 게임과 쉽게 인터페이스할 수 있음
  Opus3로 시도했을 때 “긴급 탈출 절차를 시작합니다” 같은 메시지를 내뱉으며 우주선을 폭파시키는 장면이 꽤 웃겼음
- DeepMind의 SIMA-2도 참고할 만함 (로컬 모델은 아님)
- Alibaba의 AgentEvolver는 게임 전용은 아니지만 OODA 루프 기반 에이전트 시스템으로 흥미로움
  관련 논문: https://arxiv.org/abs/2511.10395
  Sung Kim의 피드백 포스트도 참고할 만함
- 온라인 포커를 시켜보면 어떤 일이 벌어질지 궁금함
Microsoft가 Qwen-7B를 파인튜닝한 것 같음
- 정확히는 Qwen2.5-VL-7B임. 이 차이가 꽤 중요함
- 이제 판도가 바뀌고 있는 느낌임
웹페이지 클릭 자동화를 위해 70억 파라미터 모델이 필요하다는 게 웃김
우리가 스크립트를 못 짜서 이런 상황이 된 건지, 소프트웨어 스택이 너무 복잡해진 건지 모르겠음
- 최근 ‘My New Agent Coding Workflow’라는 영상을 봤는데, 단순히 파일을 다운로드하면 될 일을 IDE에 프롬프트로 시키더라
  마치 토큰 사용량을 늘리려는 의도가 느껴졌음
- 이건 기술 문제가 아니라 사회적 협력 문제임.
  기업들이 상호운용성을 위한 API를 제공하지 않으니, 결국 LLM이 인간처럼 UI를 브루트포스로 다루는 게 더 쉬워짐
- 현재 소프트웨어와 금융 산업의 절반은 과도한 복잡성으로 인한 인위적 진입장벽 위에 세워져 있음

답변달기