3P by GN⁺ 7일전 | ★ favorite | 댓글 1개
  • Fara-7B는 70억 개의 파라미터로 구성된 초소형 에이전트형 언어 모델(SLM) 로, 웹 브라우저를 실제로 조작하며 작업을 수행하는 Computer Use Agent 구조
  • 마우스와 키보드 입력을 직접 예측해 시각적으로 웹페이지를 인식하고 조작하며, 별도의 접근성 트리나 파싱 모델 없이 인간과 동일한 방식으로 상호작용
  • 온디바이스 실행이 가능해 지연시간을 줄이고 개인정보 보호를 강화하며, 평균 16단계 내에 작업을 완료해 동급 모델 대비 효율성 향상
  • WebTailBench 등 다양한 벤치마크에서 동급 및 대형 모델을 능가하는 성능을 기록, 특히 웹 자동화와 다단계 작업에서 높은 성공률 달성
  • Microsoft가 공개한 WebTailBench 데이터셋과 함께, 웹 기반 에이전트 평가 및 재현 가능한 실험 환경을 제공해 실제 웹 상호작용 연구의 표준화에 기여

Fara-7B 개요

  • Microsoft의 첫 컴퓨터 사용 전용 에이전트형 소형 언어 모델(SLM) 로, 70억 파라미터 규모에서 최신 성능을 달성
  • Qwen2.5-VL-7B를 기반으로, Magentic-One 멀티에이전트 프레임워크를 활용한 합성 데이터(145,000개 경로)로 학습
  • 7B 파라미터로 구성되어 로컬 실행 가능, 지연시간 감소 및 데이터 프라이버시 강화

주요 특징

  • 시각적 조작 기반으로 웹페이지를 인식하고, 스크롤·클릭·입력 등 실제 사용자 행동을 모방
  • 인간과 동일한 입력 모달리티를 사용하며, 별도의 파싱 모델 불필요
  • 평균 16단계로 작업을 완료해, 유사 모델(평균 41단계) 대비 효율성 향상
  • 온디바이스 배포로 클라우드 의존도 감소 및 개인 데이터 보호 강화

지원 기능

  • 웹 검색 및 결과 요약
  • 폼 입력, 계정 관리
  • 항공권·영화·식당 예약
  • 온라인 쇼핑 및 가격 비교
  • 구인·부동산 정보 탐색

성능 비교

  • WebVoyager, Online-M2W, DeepShop, WebTailBench 등 4개 벤치마크에서 평가
  • Fara-7B는 WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4% 의 성공률 기록
  • 동급 모델(UI-TARS-1.5-7B) 및 대형 모델(GLM-4.1V-9B)보다 높은 성능

WebTailBench 벤치마크

  • 11개 실제 웹 작업 유형을 포함한 609개 과제로 구성
  • 단일 사이트 작업(쇼핑, 항공, 호텔 등)과 다단계 작업(비교 쇼핑, 조합형 작업 등)을 포함
  • Fara-7B는 모든 범주에서 컴퓨터 사용 모델 중 최고 성능 기록
    • 예: 호텔 53.8%, 항공 37.9%, 쇼핑 52.4%, 비교 쇼핑 32.7%

평가 인프라

  • Playwright를 사용해 실제 브라우저 환경을 재현
  • Abstract Web Agent Interface로 다양한 모델 통합 가능
  • Fara-Agent Class를 통해 모델 실행 및 테스트 지원
  • 실험적 공개 버전으로, 샌드박스 환경에서의 실행 및 민감 데이터 사용 제한 권장

설치 및 실행

  • pip install -e . 또는 uv sync --all-extras로 설치
  • Playwright 브라우저 설치 필요
  • Azure Foundry를 통한 클라우드 호스팅 또는 VLLM을 이용한 GPU 자가 호스팅 지원
  • 명령 예시:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

재현성 및 평가 환경

  • WebVoyagerOnlineMind2Web 평가를 재현할 수 있는 webeval/ 프레임워크 제공
  • BrowserBase 통합으로 안정적인 브라우저 세션 관리
  • 시간 민감 작업 업데이트, 환경 오류 처리, 100단계 제한 등 평가 일관성 확보
  • WebVoyager 데이터셋의 불가능한 작업 48개 제거, 미래 날짜 50개 갱신

평가 실행 및 분석

  • webeval/scripts 디렉터리에서 평가 스크립트 실행
  • VLLM 자가 호스팅 또는 Azure Foundry 엔드포인트 방식 선택 가능
  • 결과는 gpt_eval/, traj/, screenshot_X.png 등으로 저장
  • Jupyter Notebook을 이용해 평균 점수, 실패 원인, 중단된 경로 분석 가능

향후 계획

  • LLM-as-a-judge 평가용 검증 파이프라인WebTailBench의 공식 인간 주석 데이터 공개 예정
  • BrowserBase와의 협업을 통한 평가 품질 향상

인용 정보

  • 연구 사용 시 Microsoft Research의 Fara: Fast and Accurate Web Agent (2025) 논문 인용 권장
Hacker News 의견
  • Microsoft가 Qwen2.5-VL-7B를 파인튜닝했다는 점이 핵심임
    이게 이번 논의의 진짜 출발점이라고 생각함. 다른 대형 기업들도 이런 식으로 외부 모델을 파인튜닝한 적이 있었는지 궁금함
  • 그냥 Qwen2.5-VL에 Microsoft 스티커만 붙인 느낌임
    이제는 중국 기업들이 선도하고 있는 것 같음
    • 맞음. 예를 들어 Fara-7B는 제1차 세계대전의 솜 전투에 대해서는 잘 대답하지만, 톈안먼 사건에 대해서는 “민감한 정치적 주제라 답변할 수 없다”고 회피함
  • 새로운 웹 작업 벤치마크인 WebTailBench가 공개된 것이 진짜 포인트임
  • Microsoft가 왜 계속 합성 데이터(synthetic data) 로 학습한 모델만 내놓는지 의문임
    혹시 OpenAI와의 계약 때문에 자체 LLM을 못 만드는 건 아닐까 생각함. Meta만이 미국 내에서 대형 오픈소스 모델을 내놓고 있고, 중국 기업들은 완전한 공개 모델을 계속 내놓는 중임
    • 계약상 제약은 없을 거라고 봄. 단지 또 다른 기초 모델(foundation model) 을 만드는 데 자원을 낭비하고 싶지 않은 것 같음
      이번 모델은 컴퓨터 제어용이라 합성 데이터가 적합함. 실제 데이터셋이 거의 없기 때문임.
      중국 기업들이 오픈소스를 택하는 이유는 신뢰 확보마케팅 차별화 목적이 큼
    • 법무팀이 그렇게 하라고 했을 가능성이 큼. 대기업은 본질적으로 혁신 불가능한 구조를 가지고 있음
    • Gemma, Phi, OLMO, Mistral, GPT-OSS 같은 모델들도 충분히 경쟁력 있고 일반 하드웨어에서도 잘 돌아감
    • 합성 데이터 학습이 훨씬 효율적임. 실제 데이터는 다음 토큰만 알지만, 합성 데이터는 확률 분포 전체를 알 수 있어서 학습 효과가 배가됨
      관련 논문: https://arxiv.org/pdf/2504.14772v1
    • 합성 데이터만 쓰는 게 더 안전함. 성인 콘텐츠나 역할극 같은 문제를 피할 수 있음
  • 모델이 브라우저 사용에만 제한된 것 같음. 예를 들어 KiCAD 같은 일반 프로그램은 제어 불가함
    나는 Qwen3-VL-30B를 Playwright와 함께 써봤는데, 브라우저 자동화에는 꽤 괜찮았음. 다만 반복 작업은 결국 코드로 캡처해야 함
    이 모델은 그보다 작지만 특화된 목적으로 만들어졌다는 점이 흥미로움
    • 이런 CUA 액션을 결정적 스크립트로 변환하고 싶다면 Stagehand 캐싱 가이드를 참고해볼 만함
    • 브라우저 내에서 WASM으로 에뮬레이션하면 가능함. 이건 모델 한계보다 보안 샌드박스 제약 때문임
    • 관련 도구나 코드가 있다면 공유해달라는 요청이 있음
    • 실제로 테스트해보니 Playwright 환경에서만 작동함
  • 표를 보니 대부분의 사용 사례를 잘 모르겠음. 쇼핑 비교 정도만 이해됨
    사람들이 진짜로 쇼핑을 AI에 외주 주는 건가 싶음
    • 꼭 소비자만을 위한 건 아님. 예를 들어 API가 없는 보험사 웹사이트 같은 곳을 자동화할 때 유용함
    • 카테고리별 상품을 모아 요약해주는 건 꽤 쓸모 있는 기능임
    • AI가 대신 결제하거나 예약하는 건 꺼림칙함. 대신 조사와 탐색까지만 맡기고 싶음
    • 나는 실제로 와인 쇼핑을 AI에게 맡기고 있음
  • 이런 자동화는 이미 수년 전부터 가능했음. GPU도 필요 없고, 인터페이스가 바뀌면 스크립트만 수정하면 됨
    Microsoft가 그냥 AI 실험을 마구 던져보는 중인 것 같음
    • 핵심은 스크립트를 직접 짜지 않아도 10억 개 이상의 웹사이트를 대상으로 자동화를 할 수 있다는 점임
      모델은 페이지 스크린샷과 목표를 입력받고, 그 목표를 향한 자동화 명령을 생성함
  • 이런 모델이 비디오게임 입력 제어에도 쓸 수 있을지 궁금함. Kerbal Space Program을 AI가 플레이하면 재밌을 것 같음
    • 예전부터 이런 실험이 있었음. kRPC를 이용하면 모델이 게임과 쉽게 인터페이스할 수 있음
      Opus3로 시도했을 때 “긴급 탈출 절차를 시작합니다” 같은 메시지를 내뱉으며 우주선을 폭파시키는 장면이 꽤 웃겼음
    • DeepMind의 SIMA-2도 참고할 만함 (로컬 모델은 아님)
    • Alibaba의 AgentEvolver는 게임 전용은 아니지만 OODA 루프 기반 에이전트 시스템으로 흥미로움
      관련 논문: https://arxiv.org/abs/2511.10395
      Sung Kim의 피드백 포스트도 참고할 만함
    • 온라인 포커를 시켜보면 어떤 일이 벌어질지 궁금함
  • Microsoft가 Qwen-7B를 파인튜닝한 것 같음
    • 정확히는 Qwen2.5-VL-7B임. 이 차이가 꽤 중요함
    • 이제 판도가 바뀌고 있는 느낌임
  • 웹페이지 클릭 자동화를 위해 70억 파라미터 모델이 필요하다는 게 웃김
    우리가 스크립트를 못 짜서 이런 상황이 된 건지, 소프트웨어 스택이 너무 복잡해진 건지 모르겠음
    • 최근 ‘My New Agent Coding Workflow’라는 영상을 봤는데, 단순히 파일을 다운로드하면 될 일을 IDE에 프롬프트로 시키더라
      마치 토큰 사용량을 늘리려는 의도가 느껴졌음
    • 이건 기술 문제가 아니라 사회적 협력 문제임.
      기업들이 상호운용성을 위한 API를 제공하지 않으니, 결국 LLM이 인간처럼 UI를 브루트포스로 다루는 게 더 쉬워짐
    • 현재 소프트웨어와 금융 산업의 절반은 과도한 복잡성으로 인한 인위적 진입장벽 위에 세워져 있음