Fara-7B: 컴퓨터 사용을 위한 효율적인 에이전트형

▲

GN⁺ 5달전 | parent | ★ favorite | on: Fara-7B: 컴퓨터 사용을 위한 효율적인 에이전트형 모델(github.com/microsoft)

Hacker News 의견

Microsoft가 Qwen2.5-VL-7B를 파인튜닝했다는 점이 핵심임
이게 이번 논의의 진짜 출발점이라고 생각함. 다른 대형 기업들도 이런 식으로 외부 모델을 파인튜닝한 적이 있었는지 궁금함
그냥 Qwen2.5-VL에 Microsoft 스티커만 붙인 느낌임
이제는 중국 기업들이 선도하고 있는 것 같음
- 맞음. 예를 들어 Fara-7B는 제1차 세계대전의 솜 전투에 대해서는 잘 대답하지만, 톈안먼 사건에 대해서는 “민감한 정치적 주제라 답변할 수 없다”고 회피함
새로운 웹 작업 벤치마크인 WebTailBench가 공개된 것이 진짜 포인트임
Microsoft가 왜 계속 합성 데이터(synthetic data) 로 학습한 모델만 내놓는지 의문임
혹시 OpenAI와의 계약 때문에 자체 LLM을 못 만드는 건 아닐까 생각함. Meta만이 미국 내에서 대형 오픈소스 모델을 내놓고 있고, 중국 기업들은 완전한 공개 모델을 계속 내놓는 중임
- 계약상 제약은 없을 거라고 봄. 단지 또 다른 기초 모델(foundation model) 을 만드는 데 자원을 낭비하고 싶지 않은 것 같음
  이번 모델은 컴퓨터 제어용이라 합성 데이터가 적합함. 실제 데이터셋이 거의 없기 때문임.
  중국 기업들이 오픈소스를 택하는 이유는 신뢰 확보와 마케팅 차별화 목적이 큼
- 법무팀이 그렇게 하라고 했을 가능성이 큼. 대기업은 본질적으로 혁신 불가능한 구조를 가지고 있음
- Gemma, Phi, OLMO, Mistral, GPT-OSS 같은 모델들도 충분히 경쟁력 있고 일반 하드웨어에서도 잘 돌아감
- 합성 데이터 학습이 훨씬 효율적임. 실제 데이터는 다음 토큰만 알지만, 합성 데이터는 확률 분포 전체를 알 수 있어서 학습 효과가 배가됨
  관련 논문: https://arxiv.org/pdf/2504.14772v1
- 합성 데이터만 쓰는 게 더 안전함. 성인 콘텐츠나 역할극 같은 문제를 피할 수 있음
모델이 브라우저 사용에만 제한된 것 같음. 예를 들어 KiCAD 같은 일반 프로그램은 제어 불가함
나는 Qwen3-VL-30B를 Playwright와 함께 써봤는데, 브라우저 자동화에는 꽤 괜찮았음. 다만 반복 작업은 결국 코드로 캡처해야 함
이 모델은 그보다 작지만 특화된 목적으로 만들어졌다는 점이 흥미로움
- 이런 CUA 액션을 결정적 스크립트로 변환하고 싶다면 Stagehand 캐싱 가이드를 참고해볼 만함
- 브라우저 내에서 WASM으로 에뮬레이션하면 가능함. 이건 모델 한계보다 보안 샌드박스 제약 때문임
- 관련 도구나 코드가 있다면 공유해달라는 요청이 있음
- 실제로 테스트해보니 Playwright 환경에서만 작동함
표를 보니 대부분의 사용 사례를 잘 모르겠음. 쇼핑 비교 정도만 이해됨
사람들이 진짜로 쇼핑을 AI에 외주 주는 건가 싶음
- 꼭 소비자만을 위한 건 아님. 예를 들어 API가 없는 보험사 웹사이트 같은 곳을 자동화할 때 유용함
- 카테고리별 상품을 모아 요약해주는 건 꽤 쓸모 있는 기능임
- AI가 대신 결제하거나 예약하는 건 꺼림칙함. 대신 조사와 탐색까지만 맡기고 싶음
- 나는 실제로 와인 쇼핑을 AI에게 맡기고 있음
이런 자동화는 이미 수년 전부터 가능했음. GPU도 필요 없고, 인터페이스가 바뀌면 스크립트만 수정하면 됨
Microsoft가 그냥 AI 실험을 마구 던져보는 중인 것 같음
- 핵심은 스크립트를 직접 짜지 않아도 10억 개 이상의 웹사이트를 대상으로 자동화를 할 수 있다는 점임
  모델은 페이지 스크린샷과 목표를 입력받고, 그 목표를 향한 자동화 명령을 생성함
이런 모델이 비디오게임 입력 제어에도 쓸 수 있을지 궁금함. Kerbal Space Program을 AI가 플레이하면 재밌을 것 같음
- 예전부터 이런 실험이 있었음. kRPC를 이용하면 모델이 게임과 쉽게 인터페이스할 수 있음
  Opus3로 시도했을 때 “긴급 탈출 절차를 시작합니다” 같은 메시지를 내뱉으며 우주선을 폭파시키는 장면이 꽤 웃겼음
- DeepMind의 SIMA-2도 참고할 만함 (로컬 모델은 아님)
- Alibaba의 AgentEvolver는 게임 전용은 아니지만 OODA 루프 기반 에이전트 시스템으로 흥미로움
  관련 논문: https://arxiv.org/abs/2511.10395
  Sung Kim의 피드백 포스트도 참고할 만함
- 온라인 포커를 시켜보면 어떤 일이 벌어질지 궁금함
Microsoft가 Qwen-7B를 파인튜닝한 것 같음
- 정확히는 Qwen2.5-VL-7B임. 이 차이가 꽤 중요함
- 이제 판도가 바뀌고 있는 느낌임
웹페이지 클릭 자동화를 위해 70억 파라미터 모델이 필요하다는 게 웃김
우리가 스크립트를 못 짜서 이런 상황이 된 건지, 소프트웨어 스택이 너무 복잡해진 건지 모르겠음
- 최근 ‘My New Agent Coding Workflow’라는 영상을 봤는데, 단순히 파일을 다운로드하면 될 일을 IDE에 프롬프트로 시키더라
  마치 토큰 사용량을 늘리려는 의도가 느껴졌음
- 이건 기술 문제가 아니라 사회적 협력 문제임.
  기업들이 상호운용성을 위한 API를 제공하지 않으니, 결국 LLM이 인간처럼 UI를 브루트포스로 다루는 게 더 쉬워짐
- 현재 소프트웨어와 금융 산업의 절반은 과도한 복잡성으로 인한 인위적 진입장벽 위에 세워져 있음