# Fara-7B: 컴퓨터 사용을 위한 효율적인 에이전트형 모델

> Clean Markdown view of GeekNews topic #24671. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24671](https://news.hada.io/topic?id=24671)
- GeekNews Markdown: [https://news.hada.io/topic/24671.md](https://news.hada.io/topic/24671.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-28T08:37:24+09:00
- Updated: 2025-11-28T08:37:24+09:00
- Original source: [github.com/microsoft](https://github.com/microsoft/fara)
- Points: 3
- Comments: 1

## Topic Body

- **Fara-7B**는 70억 개의 파라미터로 구성된 초소형 **에이전트형 언어 모델(SLM)** 로, 웹 브라우저를 실제로 조작하며 작업을 수행하는 **Computer Use Agent** 구조  
- 마우스와 키보드 입력을 직접 예측해 **시각적으로 웹페이지를 인식하고 조작**하며, 별도의 접근성 트리나 파싱 모델 없이 인간과 동일한 방식으로 상호작용  
- **온디바이스 실행**이 가능해 지연시간을 줄이고 개인정보 보호를 강화하며, 평균 16단계 내에 작업을 완료해 동급 모델 대비 효율성 향상  
- **WebTailBench** 등 다양한 벤치마크에서 동급 및 대형 모델을 능가하는 성능을 기록, 특히 웹 자동화와 다단계 작업에서 높은 성공률 달성  
- Microsoft가 공개한 **WebTailBench 데이터셋**과 함께, 웹 기반 에이전트 평가 및 재현 가능한 실험 환경을 제공해 **실제 웹 상호작용 연구의 표준화**에 기여  

---

### Fara-7B 개요
- Microsoft의 첫 **컴퓨터 사용 전용 에이전트형 소형 언어 모델(SLM)** 로, 70억 파라미터 규모에서 **최신 성능**을 달성  
- **Qwen2.5-VL-7B**를 기반으로, **Magentic-One 멀티에이전트 프레임워크**를 활용한 합성 데이터(145,000개 경로)로 학습  
- **7B 파라미터**로 구성되어 **로컬 실행 가능**, 지연시간 감소 및 데이터 프라이버시 강화  

### 주요 특징
- **시각적 조작 기반**으로 웹페이지를 인식하고, 스크롤·클릭·입력 등 실제 사용자 행동을 모방  
- **인간과 동일한 입력 모달리티**를 사용하며, 별도의 파싱 모델 불필요  
- **평균 16단계**로 작업을 완료해, 유사 모델(평균 41단계) 대비 효율성 향상  
- **온디바이스 배포**로 클라우드 의존도 감소 및 개인 데이터 보호 강화  

### 지원 기능
- 웹 검색 및 결과 요약  
- 폼 입력, 계정 관리  
- 항공권·영화·식당 예약  
- 온라인 쇼핑 및 가격 비교  
- 구인·부동산 정보 탐색  

### 성능 비교
- **WebVoyager, Online-M2W, DeepShop, WebTailBench** 등 4개 벤치마크에서 평가  
- Fara-7B는 **WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%** 의 성공률 기록  
- 동급 모델(UI-TARS-1.5-7B) 및 대형 모델(GLM-4.1V-9B)보다 높은 성능  

### WebTailBench 벤치마크
- **11개 실제 웹 작업 유형**을 포함한 609개 과제로 구성  
- 단일 사이트 작업(쇼핑, 항공, 호텔 등)과 다단계 작업(비교 쇼핑, 조합형 작업 등)을 포함  
- Fara-7B는 모든 범주에서 **컴퓨터 사용 모델 중 최고 성능** 기록  
  - 예: 호텔 53.8%, 항공 37.9%, 쇼핑 52.4%, 비교 쇼핑 32.7%  

### 평가 인프라
- **Playwright**를 사용해 실제 브라우저 환경을 재현  
- **Abstract Web Agent Interface**로 다양한 모델 통합 가능  
- **Fara-Agent Class**를 통해 모델 실행 및 테스트 지원  
- 실험적 공개 버전으로, **샌드박스 환경에서의 실행 및 민감 데이터 사용 제한** 권장  

### 설치 및 실행
- `pip install -e .` 또는 `uv sync --all-extras`로 설치  
- **Playwright 브라우저 설치** 필요  
- **Azure Foundry**를 통한 클라우드 호스팅 또는 **VLLM**을 이용한 GPU 자가 호스팅 지원  
- 명령 예시:  
  ```bash
  fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com"
  ```  

### 재현성 및 평가 환경
- **WebVoyager**와 **OnlineMind2Web** 평가를 재현할 수 있는 `webeval/` 프레임워크 제공  
- **BrowserBase** 통합으로 안정적인 브라우저 세션 관리  
- **시간 민감 작업 업데이트**, **환경 오류 처리**, **100단계 제한** 등 평가 일관성 확보  
- **WebVoyager 데이터셋**의 불가능한 작업 48개 제거, 미래 날짜 50개 갱신  

### 평가 실행 및 분석
- `webeval/scripts` 디렉터리에서 평가 스크립트 실행  
- **VLLM 자가 호스팅** 또는 **Azure Foundry 엔드포인트** 방식 선택 가능  
- 결과는 `gpt_eval/`, `traj/`, `screenshot_X.png` 등으로 저장  
- **Jupyter Notebook**을 이용해 평균 점수, 실패 원인, 중단된 경로 분석 가능  

### 향후 계획
- **LLM-as-a-judge 평가용 검증 파이프라인** 및 **WebTailBench의 공식 인간 주석 데이터** 공개 예정  
- **BrowserBase**와의 협업을 통한 평가 품질 향상  

### 인용 정보
- 연구 사용 시 Microsoft Research의 **Fara: Fast and Accurate Web Agent (2025)** 논문 인용 권장

## Comments


### Comment 46900

- Author: neo
- Created: 2025-11-28T08:37:24+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=46061208) 
- Microsoft가 **Qwen2.5-VL-7B**를 파인튜닝했다는 점이 핵심임  
  이게 이번 논의의 진짜 출발점이라고 생각함. 다른 대형 기업들도 이런 식으로 외부 모델을 파인튜닝한 적이 있었는지 궁금함
- 그냥 Qwen2.5-VL에 Microsoft 스티커만 붙인 느낌임  
  이제는 **중국 기업들이 선도**하고 있는 것 같음
  - 맞음. 예를 들어 Fara-7B는 제1차 세계대전의 솜 전투에 대해서는 잘 대답하지만, **톈안먼 사건**에 대해서는 “민감한 정치적 주제라 답변할 수 없다”고 회피함
- 새로운 웹 작업 벤치마크인 [WebTailBench](https://huggingface.co/datasets/microsoft/WebTailBench)가 공개된 것이 진짜 포인트임
- Microsoft가 왜 계속 **합성 데이터(synthetic data)** 로 학습한 모델만 내놓는지 의문임  
  혹시 OpenAI와의 계약 때문에 자체 LLM을 못 만드는 건 아닐까 생각함. Meta만이 미국 내에서 대형 **오픈소스 모델**을 내놓고 있고, 중국 기업들은 완전한 공개 모델을 계속 내놓는 중임
  - 계약상 제약은 없을 거라고 봄. 단지 또 다른 **기초 모델(foundation model)** 을 만드는 데 자원을 낭비하고 싶지 않은 것 같음  
    이번 모델은 컴퓨터 제어용이라 합성 데이터가 적합함. 실제 데이터셋이 거의 없기 때문임.  
    중국 기업들이 오픈소스를 택하는 이유는 **신뢰 확보**와 **마케팅 차별화** 목적이 큼
  - 법무팀이 그렇게 하라고 했을 가능성이 큼. 대기업은 본질적으로 **혁신 불가능한 구조**를 가지고 있음
  - Gemma, Phi, OLMO, Mistral, GPT-OSS 같은 모델들도 충분히 경쟁력 있고 **일반 하드웨어**에서도 잘 돌아감
  - 합성 데이터 학습이 훨씬 효율적임. 실제 데이터는 다음 토큰만 알지만, 합성 데이터는 **확률 분포 전체**를 알 수 있어서 학습 효과가 배가됨  
    관련 논문: [https://arxiv.org/pdf/2504.14772v1](https://arxiv.org/pdf/2504.14772v1)
  - 합성 데이터만 쓰는 게 더 안전함. **성인 콘텐츠나 역할극** 같은 문제를 피할 수 있음
- 모델이 브라우저 사용에만 제한된 것 같음. 예를 들어 KiCAD 같은 일반 프로그램은 제어 불가함  
  나는 Qwen3-VL-30B를 Playwright와 함께 써봤는데, 브라우저 자동화에는 꽤 괜찮았음. 다만 반복 작업은 결국 코드로 캡처해야 함  
  이 모델은 그보다 작지만 **특화된 목적**으로 만들어졌다는 점이 흥미로움
  - 이런 CUA 액션을 **결정적 스크립트**로 변환하고 싶다면 [Stagehand 캐싱 가이드](https://docs.stagehand.dev/v3/best-practices/caching)를 참고해볼 만함
  - 브라우저 내에서 WASM으로 에뮬레이션하면 가능함. 이건 모델 한계보다 **보안 샌드박스 제약** 때문임
  - 관련 도구나 코드가 있다면 공유해달라는 요청이 있음
  - 실제로 테스트해보니 Playwright 환경에서만 작동함
- 표를 보니 대부분의 사용 사례를 잘 모르겠음. 쇼핑 비교 정도만 이해됨  
  사람들이 진짜로 **쇼핑을 AI에 외주** 주는 건가 싶음
  - 꼭 소비자만을 위한 건 아님. 예를 들어 **API가 없는 보험사 웹사이트** 같은 곳을 자동화할 때 유용함
  - 카테고리별 상품을 모아 요약해주는 건 꽤 쓸모 있는 기능임
  - AI가 대신 결제하거나 예약하는 건 꺼림칙함. 대신 **조사와 탐색**까지만 맡기고 싶음
  - 나는 실제로 **와인 쇼핑**을 AI에게 맡기고 있음
- 이런 자동화는 이미 수년 전부터 가능했음. GPU도 필요 없고, 인터페이스가 바뀌면 스크립트만 수정하면 됨  
  Microsoft가 그냥 **AI 실험을 마구 던져보는 중**인 것 같음
  - 핵심은 스크립트를 직접 짜지 않아도 **10억 개 이상의 웹사이트**를 대상으로 자동화를 할 수 있다는 점임  
    모델은 페이지 스크린샷과 목표를 입력받고, 그 목표를 향한 **자동화 명령**을 생성함
- 이런 모델이 **비디오게임 입력 제어**에도 쓸 수 있을지 궁금함. Kerbal Space Program을 AI가 플레이하면 재밌을 것 같음
  - 예전부터 이런 실험이 있었음. [kRPC](https://krpc.github.io/krpc/)를 이용하면 모델이 게임과 쉽게 인터페이스할 수 있음  
    Opus3로 시도했을 때 “긴급 탈출 절차를 시작합니다” 같은 메시지를 내뱉으며 우주선을 폭파시키는 장면이 꽤 웃겼음
  - DeepMind의 [SIMA-2](https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/)도 참고할 만함 (로컬 모델은 아님)
  - Alibaba의 [AgentEvolver](https://github.com/modelscope/AgentEvolver)는 게임 전용은 아니지만 **OODA 루프 기반 에이전트 시스템**으로 흥미로움  
    관련 논문: [https://arxiv.org/abs/2511.10395](https://arxiv.org/abs/2511.10395)  
    Sung Kim의 [피드백 포스트](https://bsky.app/profile/sungkim.bsky.social/post/3m5xkgttk3k2b)도 참고할 만함
  - 온라인 포커를 시켜보면 어떤 일이 벌어질지 궁금함
- Microsoft가 **Qwen-7B를 파인튜닝**한 것 같음
  - 정확히는 Qwen2.5-VL-7B임. 이 차이가 꽤 중요함
  - 이제 **판도가 바뀌고 있는** 느낌임
- 웹페이지 클릭 자동화를 위해 **70억 파라미터 모델**이 필요하다는 게 웃김  
  우리가 스크립트를 못 짜서 이런 상황이 된 건지, **소프트웨어 스택이 너무 복잡**해진 건지 모르겠음
  - 최근 ‘My New Agent Coding Workflow’라는 영상을 봤는데, 단순히 파일을 다운로드하면 될 일을 IDE에 프롬프트로 시키더라  
    마치 **토큰 사용량을 늘리려는** 의도가 느껴졌음
  - 이건 기술 문제가 아니라 **사회적 협력 문제**임.  
    기업들이 상호운용성을 위한 API를 제공하지 않으니, 결국 LLM이 인간처럼 UI를 **브루트포스**로 다루는 게 더 쉬워짐
  - 현재 소프트웨어와 금융 산업의 절반은 **과도한 복잡성**으로 인한 인위적 진입장벽 위에 세워져 있음