5P by GN⁺ 22시간전 | ★ favorite | 댓글 1개
  • Tongyi DeepResearch는 OpenAI DeepResearch와 동등한 성능을 보이는 최초의 완전 오픈소스 웹 에이전트로, 복잡한 정보 탐색 벤치마크에서 최고 수준의 결과를 기록
    • Tongyi Lab은 알리바바 그룹의 AI 연구·개발 부문 중 하나로, 대형 언어모델(LLM) 및 멀티모달 모델, 에이전트(Agent) 기술 등에 집중하며 QWEN 모델을 만든 곳
  • Agentic Continual Pre-training(CPT) , Supervised Fine-Tuning(SFT) , Reinforcement Learning(RL) 을 통합한 엔드투엔드 학습 파이프라인을 구축
  • 완전 합성 데이터 기반의 대규모 QA 생성과 IterResearch 패러다임을 통해 장기적 추론과 계획 능력을 강화
  • ReAct 모드Heavy 모드를 지원해 단순 추론부터 복잡한 다단계 연구까지 대응하며, GRPO 알고리듬 기반의 강화학습으로 안정적 성능 확보
  • 실제로 Gaode MateTongyi FaRui 등 알리바바 내외부 서비스에 적용되어, 오픈소스 AI 연구 에이전트의 실용성과 확장 가능성을 입증

챗봇에서 자율 에이전트로

  • Tongyi DeepResearch는 OpenAI DeepResearch 수준의 성능을 달성한 최초의 완전 오픈소스 웹 에이전트
    • Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75점을 기록
    • 기존의 모든 상용 및 오픈소스 Deep Research 에이전트를 능가
  • 모델 외에도 데이터 합성 기반의 전체 학습 방법론을 공개
    • Agentic CPT, SFT, RL을 포함한 전 과정의 자동화된 데이터 생성 및 강화학습 인프라 제공
  • ReAct 프레임워크로 프롬프트 엔지니어링 없이도 강력한 내재 능력 발휘
    • Heavy Mode에서는 복잡한 계획·추론 능력의 한계치를 시연

합성 데이터 기반의 지속적 사전학습 및 후학습

  • Agentic CPT를 도입해 에이전트형 기초 모델 구축
    • AgentFounder 시스템을 통해 대규모 데이터 합성 및 순환형 데이터 플라이휠 구현
  • 데이터 재구성 및 질문 생성 단계에서 문서, 크롤링 데이터, 지식 그래프, 도구 호출 기록 등을 통합
    • 이를 엔티티 중심의 오픈월드 지식 메모리로 재구성하고, 다양한 형태의 (질문, 답변) 쌍 생성
  • 행동 합성(Action Synthesis) 을 통해 1차 및 고차 행동 데이터를 생성
    • 다단계 의사결정 구조를 모델링하여 의사결정 능력 강화
  • 후학습(Post-training) 데이터

    • 완전 자동화된 합성 QA 생성 파이프라인 구축
      • WebWalker, WebSailor, WebShaper 등 일련의 연구를 통해 그래프 기반 합성 및 난이도 제어형 QA 데이터 생산
    • 무작위 워크 기반 지식 그래프표 데이터 융합을 통해 현실적인 정보 구조 확보
      • 엔티티 병합 등 ‘원자 연산’을 통해 난이도를 체계적으로 조절
    • 집합론 기반 문제 형식화로 정보 구조와 추론 구조 간 불일치 최소화
      • QA 정합성 검증 효율 향상
    • 자동화 데이터 엔진으로 박사 수준의 연구 질문 생성
      • 다학제 지식 기반에서 출발해 반복적 복잡도 상승 루프를 통해 고난도 QA 생성
    • ReActIterResearch 프레임워크를 활용해 다양한 추론 패턴 학습
      • IterResearch는 매 회차마다 작업 공간을 재구성해 장기 계획 능력 강화

롤아웃 모드

  • 모델은 ReAct 모드Heavy 모드 두 가지 실행 방식을 지원
  • Native ReAct Mode

    • Thought–Action–Observation 순환 구조를 따르며, 프롬프트 엔지니어링 없이도 우수한 성능 발휘
      • 128K 컨텍스트 길이로 다수의 상호작용 라운드 처리 가능
    • 단순성과 범용성이 모델의 내재 능력을 평가하는 명확한 기준 제공
    • “The Bitter Lesson” 원칙에 따라 확장 가능한 일반 방법론을 채택
  • Heavy Mode

    • IterResearch 패러다임 기반으로 복잡한 다단계 연구 과제 수행
      • 각 라운드마다 핵심 결과만 유지하며 새로운 작업 공간을 재구성
      • 중앙 보고서를 지속적으로 갱신하며 고품질 추론 유지
    • Research–Synthesis 프레임워크를 통해 여러 연구 에이전트의 결과를 병렬 탐색 후 통합
      • 제한된 컨텍스트 내에서 더 넓은 탐색 경로 확보

엔드투엔드 에이전트 학습 파이프라인

  • Agentic CPT → SFT → RL로 이어지는 완전 통합형 학습 루프 구축
  • On-policy 강화학습(RL) 단계에서 Group Relative Policy Optimization(GRPO) 알고리듬 사용
    • 토큰 단위 정책 그래디언트 손실, leave-one-out 전략, 음성 샘플 필터링 등으로 안정성 확보
    • 학습 중 보상 상승과 높은 정책 엔트로피 유지로 탐색 지속
  • 합성 데이터가 BrowseComp 등 인간 주석 데이터보다 일관된 분포를 제공해 학습 효율 향상
  • 인프라 구성

    • 합성 학습 환경: 오프라인 Wikipedia DB와 맞춤형 도구 세트를 이용한 시뮬레이션 환경 구축
    • 안정적 도구 샌드박스: 캐싱, 재시도, 백업 API로 도구 호출 오류 방지
    • 자동 데이터 큐레이션: 학습 동태에 따라 실시간 데이터 합성·필터링으로 안정성 및 성능 향상
    • 비동기 On-policy 프레임워크: rLLM 기반의 스텝 단위 비동기 RL 루프 구현
    • 이 과정을 통해 자기 진화형 AI 에이전트 학습 루프 완성, 복잡한 동적 환경에서도 안정적 문제 해결 가능

실제 적용 사례

  • Gaode Mate (지도·내비게이션 에이전트)
    • Amap 팀과 협력해 ‘Xiao Gao’ AI 코파일럿 개발
    • 다단계 추론으로 여행 일정, 반려동물 친화 숙소 포함 경로 등 복합 계획 수행
  • Tongyi FaRui (법률 연구 에이전트)
    • 판례 검색, 법령 교차 검토, 분석 통합 등 변호사 수준의 다단계 연구 수행
    • 모든 결론은 검증 가능한 사법 자료에 근거하며, 정확한 인용 포함

한계와 향후 과제

  • 128K 컨텍스트 한계로 초장기 과제 처리에 제약
  • 30B 규모 MoE 모델 이상으로의 확장성 검증 필요
  • 강화학습 효율 개선을 위한 부분 롤아웃 및 오프폴리시 학습 연구 계획

시리즈 연구

  • WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher 등 11편의 관련 논문 공개
  • 최근 6개월간 매월 기술 보고서 발간, 이번에 Tongyi DeepResearch‑30B‑A3B 모델과 함께 6편의 신규 보고서 동시 공개
  • 차세대 에이전트형 모델 개발 지속 예정
Hacker News 의견
  • “딥 리서치”용으로 공개된 30B MoE 모델이 반가움
    여러 개의 에이전트를 병렬로 돌려 탐색·추출은 가벼운 모델이, 계획·도구 라우팅·검증은 30B 모델이 맡는 구조가 효율적임
    MoE의 전문화 구조가 분산형 에이전트 AI에 잘 맞지만, 재시도·합의·다단계 웹 리서치 평가를 위한 오케스트레이션이 필요함
  • 요즘 특화형 LLM이 폭발적으로 늘어날지 궁금함
    대형 모델이 너무 커져서 사전학습의 한계에 다다른다면, 목적별 모델이 더 많아질 수도 있음
    GPT‑3.5가 체스에 강했는데 최근 모델들은 그렇지 않은 걸 보면, 학습 데이터의 트레이드오프가 있는 듯함
    • 현재는 범용 대형 모델이 거의 모든 면에서 더 뛰어남
      작은 모델을 특정 작업용으로 파인튜닝하는 건 비용이 크고, 대형 모델 발전 속도가 너무 빨라 금세 뒤처짐
      하지만 발전 속도가 느려지면 소형 모델 훈련이 다시 의미를 가질 것임
    • 체스에 강한 LLM의 벤치마크를 보고 싶음
      예전부터 SvelteKit 같은 특정 프레임워크만 잘 아는 4B~8B 모델이 있으면 좋겠다고 생각했음
      대형 모델의 품질이 항상 더 낫다고 보긴 어렵고, 작은 모델이 GPU 한 장으로 돌아간다면 훨씬 실용적일 것 같음
      예전에 형에게 체스 LLM 비교 웹사이트 아이디어를 제안했는데, 아직 구현되지 않았음
    • GPT‑3.5가 체스에 강했다는 말에는 동의하지 않음
      실제로 해보니 환각 수가 많았음
    • seed‑tars.com/game‑tars 링크를 공유함
    • MoE 구조의 핵심이 바로 이거 아님?
      필요한 부분만 개별적으로 학습하고 개선할 수 있다는 점이 장점임
  • 이런 딥 리서치 도구가 실제로 유용한지 궁금함
    내 경험상 검색엔진 요약 수준을 넘지 못하고 밋밋한 보고서만 생성함
    • 영국에서 작은 웹사이트를 운영하며 법률 준수용으로 써봤는데, 맥락을 넣으면 꽤 맞춤형 결과를 줌
      변호사 수준은 아니지만, 예산이 없는 프로젝트엔 큰 도움이 됨
    • 나도 비슷한 경험임
      실제로 배우려는 사람보다는 ‘품질 있어 보이게’ 쓰는 컨설팅 보고서 느낌이라 실질적 가치는 낮음
    • 보고서는 밋밋하지만 자료 출처 탐색에는 유용함
      “이 주제가 이미 연구된 적이 있나?” 같은 질문에 참고할 예시를 찾아주는 데 도움됨
    • ChatGPT를 자주 쓰는데, 질문을 던지면 관련 소스 정리를 잘 해줌
      직접 리서치를 완전히 대체하진 않지만, 초기 정보 정리에 큰 도움이 됨
    • 검색엔진 수준의 요약이라도 새로운 아이디어나 unknown unknowns를 찾는 데 충분히 쓸 만함
  • 예전에 만든 Qwen3 4B distill 모델과 합성 데이터셋을 Hugging Face에 공개했음
    • 브라우저에서 바로 써볼 수 있는 Hugging Face Space를 만들어줬으면 함
      Qwen3 4B는 내 인텔 내장 GPU에서도 잘 돌아가서 인상 깊었음
      예전에 ‘유해 콘텐츠 감지용 초저가 모델’ 아이디어를 생각했는데, 이런 소형 LLM이 그 역할을 할 수 있을 듯함
      또 라우팅용으로도 써볼 수 있을 것 같음
    • 내 웹 검색 MCP로 돌려봤는데, 이렇게 작은 모델에서 이런 딥 리서치 품질은 처음 봤음
  • 전체적으로 흥미로운 시리즈임
    다만 CSS 속성 word-break: break-word; 때문에 읽기가 너무 힘듦
    • 나도 읽으려 해봤는데 단어 연결이 안 되는 느낌
  • 일요일 아침, 엔지니어 취미로 자가 호스팅하려면 어떻게 해야 할지 궁금함
    2080Ti에 128GB VRAM(?)으로 느리게라도 돌려보고 싶음
    제약이 오히려 재미라고 생각함
    • 저렴하게 VRAM을 확보하려면 AMD MI50이 괜찮음
      32GB 버전을 알리익스프레스에서 150~250달러에 구할 수 있고, 여러 장 묶으면 128GB VRAM 구성이 가능함
      최신 GPU만큼 빠르진 않지만 충분히 쓸 만함
    • 빠르게 로컬에서 돌려보고 싶다면 Ollama 앱이 가장 간단함
      ollama.com에서 설치 가능함
      그런데 2080Ti에 128GB VRAM이라면 그 방법이 궁금함
    • 나는 MacBook Pro 128GB 통합 메모리로 모델을 돌림
      속도는 느리지만 오프라인에서도 잘 작동하고, 커피숍에서도 쓸 수 있음
      Ollama를 이용하므로 최신 모델은 포팅될 때까지 기다려야 함
    • 예산 한정으로 조립한 내 세팅은 다음과 같음
      Ryzen 9 9950X, 96GB RAM, RTX 3090 두 장, 1600W PSU
      FP8 양자화된 30B 모델을 무난히 돌릴 수 있음
    • 아마 VRAM이 아니라 RAM을 말한 듯함
      이 모델은 30B MoE지만 활성 파라미터는 3B 정도라 Qwen3 MoE와 비슷함
      나는 11년 된 i5‑6600과 Radeon 6600(8GB)으로 4bit 양자화 모델을 돌리며 16k 컨텍스트에서 약 12tps 정도 나옴
      실행 스크립트 예시도 공유함
  • Tongyi 모델은 OpenRouter에서도 제공되며, 무료 버전도 있음
    openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
  • “Deep research”가 “동의(Agree)”로 번역된 건 아닐까 하는 농담을 던짐
    • 실제로는 중국어 이름이 通义千问(Tongyi Qianwen) 으로, “모든 질문을 아는”이라는 뜻임
      “同意(동의)”와 발음이 같지만 의미는 다름
      Alibaba Qwen 공식 페이지 참고
  • 이 모델은 한 달 전에 이미 가중치가 공개된 것임
    • 그래도 모든 사람이 실시간으로 따라가는 건 아니니, 한 달 된 모델이라도 여전히 쓸모 있음
    • 그렇다면 다른 모델과 성능 비교는 어떤지 궁금함
  • OpenAI의 “Deep research”는 특정 모델이 아니라 기능적 패턴에 가까움
    GPT‑5, GPT‑4o, o3 등 어떤 모델을 쓰느냐에 따라 결과가 달라짐
    • 지금은 OpenAI, Perplexity, Google Gemini, Anthropic, Grok 등 거의 모든 곳이 비슷한 리서치 패턴을 제공함
      검색 기반의 장기 실행 태스크로, 5~10분 동안 자료를 모아 인용 포함 보고서를 생성함
      Tongyi 모델은 이런 루프형 검색·보고서 작성에 특화되어 있음