# Tongyi DeepResearch – OpenAI DeepResearch에 필적하는 오픈소스 30B MoE 모델

> Clean Markdown view of GeekNews topic #24114. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=24114](https://news.hada.io/topic?id=24114)
- GeekNews Markdown: [https://news.hada.io/topic/24114.md](https://news.hada.io/topic/24114.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-11-04T01:33:16+09:00
- Updated: 2025-11-04T01:33:16+09:00
- Original source: [tongyi-agent.github.io](https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/)
- Points: 10
- Comments: 1

## Summary

알리바바의 **Tongyi Lab**이 공개한 **Tongyi DeepResearch**는 OpenAI DeepResearch에 필적하는 성능을 보이는 최초의 **완전 오픈소스 웹 에이전트**로, 합성 데이터 기반의 **엔드투엔드 학습 파이프라인(CPT→SFT→RL)** 을 통해 장기 추론과 계획 능력을 스스로 진화시킵니다. 단순한 챗봇을 넘어 **ReAct·Heavy 모드**로 복잡한 연구 과제를 수행하며, 실제로 **지도·법률 에이전트** 등 상용 서비스에 적용되어 실용성을 입증했습니다. 특히 **Agentic CPT**와 **IterResearch** 같은 자동화된 데이터 생성·학습 루프는 “모델이 스스로 연구하는 AI”의 가능성을 보여줍니다. 오픈소스 생태계에서 진짜 **자율형 연구 에이전트**가 등장했다는 점이, 개발자와 연구자 모두에게 꽤 흥미로운 신호인 것 같습니다.

## Topic Body

- **Tongyi DeepResearch**는 OpenAI DeepResearch와 동등한 성능을 보이는 최초의 **완전 오픈소스 웹 에이전트**로, 복잡한 정보 탐색 벤치마크에서 최고 수준의 결과를 기록  
  - Tongyi Lab은 알리바바 그룹의 AI 연구·개발 부문 중 하나로, 대형 언어모델(LLM) 및 멀티모달 모델, 에이전트(Agent) 기술 등에 집중하며 QWEN 모델을 만든 곳  
- **Agentic Continual Pre-training(CPT)** , **Supervised Fine-Tuning(SFT)** , **Reinforcement Learning(RL)** 을 통합한 **엔드투엔드 학습 파이프라인**을 구축  
- **완전 합성 데이터 기반**의 대규모 QA 생성과 **IterResearch** 패러다임을 통해 장기적 추론과 계획 능력을 강화  
- **ReAct 모드**와 **Heavy 모드**를 지원해 단순 추론부터 복잡한 다단계 연구까지 대응하며, **GRPO 알고리듬** 기반의 강화학습으로 안정적 성능 확보  
- 실제로 **Gaode Mate**와 **Tongyi FaRui** 등 알리바바 내외부 서비스에 적용되어, 오픈소스 AI 연구 에이전트의 실용성과 확장 가능성을 입증  
  
---  
  
### 챗봇에서 자율 에이전트로  
- Tongyi DeepResearch는 **OpenAI DeepResearch** 수준의 성능을 달성한 최초의 **완전 오픈소스 웹 에이전트**  
  - Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75점을 기록  
  - 기존의 모든 상용 및 오픈소스 Deep Research 에이전트를 능가  
- 모델 외에도 **데이터 합성 기반의 전체 학습 방법론**을 공개  
  - Agentic CPT, SFT, RL을 포함한 전 과정의 자동화된 데이터 생성 및 강화학습 인프라 제공  
- **ReAct 프레임워크**로 프롬프트 엔지니어링 없이도 강력한 내재 능력 발휘  
  - **Heavy Mode**에서는 복잡한 계획·추론 능력의 한계치를 시연  
  
### 합성 데이터 기반의 지속적 사전학습 및 후학습  
- **Agentic CPT**를 도입해 에이전트형 기초 모델 구축  
  - **AgentFounder** 시스템을 통해 대규모 데이터 합성 및 순환형 데이터 플라이휠 구현  
- **데이터 재구성 및 질문 생성** 단계에서 문서, 크롤링 데이터, 지식 그래프, 도구 호출 기록 등을 통합  
  - 이를 **엔티티 중심의 오픈월드 지식 메모리**로 재구성하고, 다양한 형태의 (질문, 답변) 쌍 생성  
- **행동 합성(Action Synthesis)** 을 통해 1차 및 고차 행동 데이터를 생성  
  - 다단계 의사결정 구조를 모델링하여 의사결정 능력 강화  
- ## 후학습(Post-training) 데이터  
  - **완전 자동화된 합성 QA 생성 파이프라인** 구축  
    - WebWalker, WebSailor, WebShaper 등 일련의 연구를 통해 **그래프 기반 합성 및 난이도 제어형 QA 데이터** 생산  
  - **무작위 워크 기반 지식 그래프**와 **표 데이터 융합**을 통해 현실적인 정보 구조 확보  
    - 엔티티 병합 등 ‘원자 연산’을 통해 난이도를 체계적으로 조절  
  - **집합론 기반 문제 형식화**로 정보 구조와 추론 구조 간 불일치 최소화  
    - QA 정합성 검증 효율 향상  
  - **자동화 데이터 엔진**으로 박사 수준의 연구 질문 생성  
    - 다학제 지식 기반에서 출발해 반복적 복잡도 상승 루프를 통해 고난도 QA 생성  
  - **ReAct**와 **IterResearch** 프레임워크를 활용해 다양한 추론 패턴 학습  
    - IterResearch는 매 회차마다 작업 공간을 재구성해 장기 계획 능력 강화  
  
### 롤아웃 모드  
- 모델은 **ReAct 모드**와 **Heavy 모드** 두 가지 실행 방식을 지원  
- ## Native ReAct Mode  
  - **Thought–Action–Observation** 순환 구조를 따르며, 프롬프트 엔지니어링 없이도 우수한 성능 발휘  
    - 128K 컨텍스트 길이로 다수의 상호작용 라운드 처리 가능  
  - 단순성과 범용성이 모델의 내재 능력을 평가하는 명확한 기준 제공  
  - “The Bitter Lesson” 원칙에 따라 **확장 가능한 일반 방법론**을 채택  
- ## Heavy Mode  
  - **IterResearch 패러다임** 기반으로 복잡한 다단계 연구 과제 수행  
    - 각 라운드마다 핵심 결과만 유지하며 새로운 작업 공간을 재구성  
    - 중앙 보고서를 지속적으로 갱신하며 고품질 추론 유지  
  - **Research–Synthesis 프레임워크**를 통해 여러 연구 에이전트의 결과를 병렬 탐색 후 통합  
    - 제한된 컨텍스트 내에서 더 넓은 탐색 경로 확보  
  
### 엔드투엔드 에이전트 학습 파이프라인  
- **Agentic CPT → SFT → RL**로 이어지는 완전 통합형 학습 루프 구축  
- **On-policy 강화학습(RL)** 단계에서 **Group Relative Policy Optimization(GRPO)** 알고리듬 사용  
  - 토큰 단위 정책 그래디언트 손실, leave-one-out 전략, 음성 샘플 필터링 등으로 안정성 확보  
  - 학습 중 보상 상승과 높은 정책 엔트로피 유지로 탐색 지속  
- **합성 데이터**가 BrowseComp 등 인간 주석 데이터보다 일관된 분포를 제공해 학습 효율 향상  
- ## 인프라 구성  
  - **합성 학습 환경:** 오프라인 Wikipedia DB와 맞춤형 도구 세트를 이용한 시뮬레이션 환경 구축  
  - **안정적 도구 샌드박스:** 캐싱, 재시도, 백업 API로 도구 호출 오류 방지  
  - **자동 데이터 큐레이션:** 학습 동태에 따라 실시간 데이터 합성·필터링으로 안정성 및 성능 향상  
  - **비동기 On-policy 프레임워크:** rLLM 기반의 스텝 단위 비동기 RL 루프 구현  
  - 이 과정을 통해 **자기 진화형 AI 에이전트 학습 루프 완성**, 복잡한 동적 환경에서도 안정적 문제 해결 가능  
  
### 실제 적용 사례  
- **Gaode Mate (지도·내비게이션 에이전트)**  
  - Amap 팀과 협력해 ‘Xiao Gao’ AI 코파일럿 개발  
  - 다단계 추론으로 여행 일정, 반려동물 친화 숙소 포함 경로 등 복합 계획 수행  
- **Tongyi FaRui (법률 연구 에이전트)**  
  - 판례 검색, 법령 교차 검토, 분석 통합 등 변호사 수준의 다단계 연구 수행  
  - 모든 결론은 **검증 가능한 사법 자료**에 근거하며, 정확한 인용 포함  
  
### 한계와 향후 과제  
- **128K 컨텍스트 한계**로 초장기 과제 처리에 제약  
- **30B 규모 MoE 모델 이상**으로의 확장성 검증 필요  
- **강화학습 효율 개선**을 위한 부분 롤아웃 및 오프폴리시 학습 연구 계획  
  
### 시리즈 연구  
- WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher 등 11편의 관련 논문 공개  
- 최근 6개월간 매월 기술 보고서 발간, 이번에 **Tongyi DeepResearch‑30B‑A3B 모델**과 함께 6편의 신규 보고서 동시 공개  
- 차세대 에이전트형 모델 개발 지속 예정

## Comments



### Comment 45826

- Author: neo
- Created: 2025-11-04T01:33:18+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45789602) 
- “딥 리서치”용으로 공개된 **30B MoE 모델**이 반가움  
  여러 개의 에이전트를 병렬로 돌려 탐색·추출은 가벼운 모델이, 계획·도구 라우팅·검증은 30B 모델이 맡는 구조가 효율적임  
  MoE의 **전문화 구조**가 분산형 에이전트 AI에 잘 맞지만, 재시도·합의·다단계 웹 리서치 평가를 위한 오케스트레이션이 필요함
- 요즘 **특화형 LLM**이 폭발적으로 늘어날지 궁금함  
  대형 모델이 너무 커져서 사전학습의 한계에 다다른다면, 목적별 모델이 더 많아질 수도 있음  
  GPT‑3.5가 체스에 강했는데 최근 모델들은 그렇지 않은 걸 보면, 학습 데이터의 **트레이드오프**가 있는 듯함
  - 현재는 범용 대형 모델이 거의 모든 면에서 더 뛰어남  
    작은 모델을 특정 작업용으로 파인튜닝하는 건 비용이 크고, 대형 모델 발전 속도가 너무 빨라 금세 뒤처짐  
    하지만 발전 속도가 느려지면 **소형 모델 훈련**이 다시 의미를 가질 것임
  - 체스에 강한 LLM의 **벤치마크**를 보고 싶음  
    예전부터 SvelteKit 같은 특정 프레임워크만 잘 아는 4B~8B 모델이 있으면 좋겠다고 생각했음  
    대형 모델의 품질이 항상 더 낫다고 보긴 어렵고, 작은 모델이 GPU 한 장으로 돌아간다면 훨씬 실용적일 것 같음  
    예전에 형에게 체스 LLM 비교 웹사이트 아이디어를 제안했는데, 아직 구현되지 않았음
  - GPT‑3.5가 체스에 강했다는 말에는 동의하지 않음  
    실제로 해보니 **환각 수**가 많았음
  - [seed‑tars.com/game‑tars](https://seed-tars.com/game-tars) 링크를 공유함
  - MoE 구조의 핵심이 바로 이거 아님?  
    필요한 부분만 **개별적으로 학습**하고 개선할 수 있다는 점이 장점임
- 이런 **딥 리서치 도구**가 실제로 유용한지 궁금함  
  내 경험상 검색엔진 요약 수준을 넘지 못하고 밋밋한 보고서만 생성함
  - 영국에서 작은 웹사이트를 운영하며 법률 준수용으로 써봤는데, 맥락을 넣으면 꽤 **맞춤형 결과**를 줌  
    변호사 수준은 아니지만, 예산이 없는 프로젝트엔 큰 도움이 됨
  - 나도 비슷한 경험임  
    실제로 배우려는 사람보다는 ‘품질 있어 보이게’ 쓰는 **컨설팅 보고서** 느낌이라 실질적 가치는 낮음
  - 보고서는 밋밋하지만 **자료 출처 탐색**에는 유용함  
    “이 주제가 이미 연구된 적이 있나?” 같은 질문에 참고할 예시를 찾아주는 데 도움됨
  - ChatGPT를 자주 쓰는데, 질문을 던지면 관련 **소스 정리**를 잘 해줌  
    직접 리서치를 완전히 대체하진 않지만, 초기 정보 정리에 큰 도움이 됨
  - 검색엔진 수준의 요약이라도 새로운 아이디어나 **unknown unknowns**를 찾는 데 충분히 쓸 만함
- 예전에 만든 **Qwen3 4B distill 모델**과 합성 데이터셋을 [Hugging Face](https://huggingface.co/flashresearch)에 공개했음
  - 브라우저에서 바로 써볼 수 있는 **Hugging Face Space**를 만들어줬으면 함  
    Qwen3 4B는 내 **인텔 내장 GPU**에서도 잘 돌아가서 인상 깊었음  
    예전에 ‘유해 콘텐츠 감지용 초저가 모델’ 아이디어를 생각했는데, 이런 소형 LLM이 그 역할을 할 수 있을 듯함  
    또 라우팅용으로도 써볼 수 있을 것 같음
  - 내 웹 검색 MCP로 돌려봤는데, 이렇게 작은 모델에서 이런 **딥 리서치 품질**은 처음 봤음
- 전체적으로 흥미로운 시리즈임  
  다만 CSS 속성 `word-break: break-word;` 때문에 읽기가 너무 힘듦
  - 나도 읽으려 해봤는데 **단어 연결이 안 되는 느낌**임
- 일요일 아침, **엔지니어 취미로 자가 호스팅**하려면 어떻게 해야 할지 궁금함  
  2080Ti에 128GB VRAM(?)으로 느리게라도 돌려보고 싶음  
  제약이 오히려 재미라고 생각함
  - 저렴하게 VRAM을 확보하려면 **AMD MI50**이 괜찮음  
    32GB 버전을 알리익스프레스에서 150~250달러에 구할 수 있고, 여러 장 묶으면 128GB VRAM 구성이 가능함  
    최신 GPU만큼 빠르진 않지만 충분히 쓸 만함
  - 빠르게 로컬에서 돌려보고 싶다면 **Ollama 앱**이 가장 간단함  
    [ollama.com](https://ollama.com/)에서 설치 가능함  
    그런데 2080Ti에 128GB VRAM이라면 그 방법이 궁금함
  - 나는 **MacBook Pro 128GB 통합 메모리**로 모델을 돌림  
    속도는 느리지만 오프라인에서도 잘 작동하고, 커피숍에서도 쓸 수 있음  
    Ollama를 이용하므로 최신 모델은 포팅될 때까지 기다려야 함
  - 예산 한정으로 조립한 내 세팅은 다음과 같음  
    Ryzen 9 9950X, 96GB RAM, RTX 3090 두 장, 1600W PSU  
    FP8 양자화된 30B 모델을 무난히 돌릴 수 있음
  - 아마 VRAM이 아니라 RAM을 말한 듯함  
    이 모델은 30B MoE지만 활성 파라미터는 3B 정도라 **Qwen3 MoE**와 비슷함  
    나는 11년 된 i5‑6600과 Radeon 6600(8GB)으로 4bit 양자화 모델을 돌리며 16k 컨텍스트에서 약 12tps 정도 나옴  
    [실행 스크립트 예시](https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF/blob/main/Qwen3-30B-A3B-Q4_0.gguf)도 공유함
- **Tongyi 모델**은 OpenRouter에서도 제공되며, 무료 버전도 있음  
  [openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b](https://openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b)
- “Deep research”가 “동의(Agree)”로 번역된 건 아닐까 하는 농담을 던짐
  - 실제로는 중국어 이름이 **通义千问(Tongyi Qianwen)** 으로, “모든 질문을 아는”이라는 뜻임  
    “同意(동의)”와 발음이 같지만 의미는 다름  
    [Alibaba Qwen 공식 페이지](https://www.alibabacloud.com/en/solutions/generative-ai/qwen) 참고
- 이 모델은 한 달 전에 이미 **가중치가 공개**된 것임
  - 그래도 모든 사람이 실시간으로 따라가는 건 아니니, 한 달 된 모델이라도 여전히 쓸모 있음
  - 그렇다면 다른 모델과 **성능 비교**는 어떤지 궁금함
- OpenAI의 “Deep research”는 특정 모델이 아니라 **기능적 패턴**에 가까움  
  GPT‑5, GPT‑4o, o3 등 어떤 모델을 쓰느냐에 따라 결과가 달라짐
  - 지금은 OpenAI, Perplexity, Google Gemini, Anthropic, Grok 등 거의 모든 곳이 **비슷한 리서치 패턴**을 제공함  
    검색 기반의 장기 실행 태스크로, 5~10분 동안 자료를 모아 **인용 포함 보고서**를 생성함  
    Tongyi 모델은 이런 루프형 검색·보고서 작성에 특화되어 있음
