# 딥 리서치, 딥 리서치, 딥 리서치의 차이점

> Clean Markdown view of GeekNews topic #19603. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19603](https://news.hada.io/topic?id=19603)
- GeekNews Markdown: [https://news.hada.io/topic/19603.md](https://news.hada.io/topic/19603.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-06T23:11:32+09:00
- Updated: 2025-03-06T23:11:32+09:00
- Original source: [leehanchung.github.io](https://leehanchung.github.io/blogs/2025/02/26/deep-research/)
- Points: 6
- Comments: 2

## Summary

최근 AI 연구소들은 '딥 리서치'라는 용어를 사용하여 다양한 기능을 발표하고 있으며, Google, OpenAI, Perplexity 등 여러 기업이 이를 활용한 제품을 출시하고 있습니다. 딥 리서치는 대형 언어 모델(LLM)을 에이전트로 사용하여 정보를 반복적으로 검색하고 분석해 상세한 보고서를 생성하는 시스템으로, 보고서 생성 시스템의 구현 방식은 비학습형과 학습형으로 나뉘며, 각각의 방식은 다양한 도구와 패턴을 통해 발전하고 있습니다. 딥 리서치 기술은 빠르게 발전하고 있지만, 용어의 모호한 사용이 혼란을 초래하고 있어 기술적 차이를 명확히 이해하는 것이 중요합니다.

## Topic Body

- 최근 AI랩들은 ‘**딥 리서치(Deep Research)**’라는 용어를 사용하여 다양한 기능을 발표하고 있음  
- **Google**은 2024년 12월 Gemini 1.5 Deep Research를, **OpenAI**는 2025년 2월 Deep Research를, **Perplexity**는 그 직후 자체 Deep Research를 공개함  
- 이 외에도 DeepSeek, Alibaba의 Qwen, Elon Musk의 xAI 등이 챗봇 어시스턴트에 **Search** 및 **Deep Search** 기능을 도입함  
- GitHub에는 **수십 개의 오픈 소스 ‘딥 리서치’ 구현체**가 등장함  
- 이는 2025년의 Retrieval-Augmented Generation(RAG)과 유사하게 ‘딥 리서치’라는 용어가 **명확한 정의 없이 사용되고 있음**을 시사함  
  
### Deep Research, Deep Search, 또는 그냥 Search  
> **Google** : “딥 리서치는 AI를 사용하여 복잡한 주제를 탐구하고, 포괄적이고 읽기 쉬운 보고서를 제공하며, Gemini가 복잡한 작업을 처리하여 시간을 절약하는 데 더욱 능숙해지고 있음을 보여줍니다.” -   
> **OpenAI** : “딥 리서치는 OpenAI의 차세대 에이전트로, 사용자가 프롬프트를 제공하면 ChatGPT가 수백 개의 온라인 소스를 찾아 분석하고 종합하여 연구 분석가 수준의 포괄적인 보고서를 생성합니다.”  
> **Perplexity** : “딥 리서치 질문을 하면 Perplexity는 수십 개의 검색을 수행하고 수백 개의 소스를 읽으며 자료를 추론하여 자율적으로 포괄적인 보고서를 제공합니다.”   
- 마케팅 용어를 제외하면, 딥 리서치는 다음과 같이 정의할 수 있음  
> **사용자 쿼리**를 받아들이고, **대형 언어 모델(LLM)을 에이전트로 사용**하여 **반복적으로 정보를 검색하고 분석**하며, **상세한 보고서를 출력**하는 보고서 생성 시스템  
- 자연어 처리(NLP) 용어로는 ’**보고서 생성(report generation)**’으로 알려져 있음  
  
### 구현 방식  
- ChatGPT의 등장 이후, 보고서 생성 또는 ‘딥 리서치’는 AI 엔지니어링의 주요 초점이 되었음  
- 필자는 2023년 초 해커톤에서 이를 실험해보았으며, 이는 AI 엔지니어링이 막 떠오르던 시기였음  
- LangChain, AutoGPT, GPT-Researcher, 프롬프트 엔지니어링 등 도구와 수많은 데모가 트위터와 링크드인에서 큰 관심을 받았음  
- 그러나 실제 도전 과제는 구현 세부 사항에 있음  
- 아래에서는 보고서 생성 시스템을 구축하기 위한 일반적인 패턴을 탐구하고, 그 차이점을 강조하며, 다양한 벤더의 제공 사항을 분류함  
  
### 비학습형: 방향성 비순환 그래프(DAG)  
- 초기에는 GPT-3.5와 같은 LLM에게 보고서를 처음부터 생성하도록 요청하는 것이 실용적이지 않다는 것을 발견함  
- 대신, 여러 LLM 호출을 연결하기 위해 Composite 패턴을 사용함  
- 사용자 쿼리를 분해하여 보고서 개요를 생성함  
- 각 섹션에 대해 검색 엔진이나 지식 베이스에서 관련 정보를 검색하고 요약함  
- 마지막으로 LLM을 사용하여 섹션을 일관된 보고서로 결합함  
- GPT-Researcher가 그 예시임  
	- 이 시스템의 모든 프롬프트는 ‘프롬프트 엔지니어링’을 통해 세심하게 조정됨  
	- 평가는 주관적인 출력물 확인에 의존하며, 보고서 품질은 일관되지 않음  
	- 작동할 때는 훌륭하지만, 항상 안정적이지는 않음  
  
### 비학습형: 유한 상태 기계(FSM)  
- 보고서 품질을 향상시키기 위해 엔지니어들은 DAG 접근 방식에 복잡성을 추가함  
- 단일 패스 프로세스 대신, Reflexion 및 자기 반성(self-reflection)과 같은 구조적 패턴을 도입하여 LLM이 자신의 출력을 검토하고 개선하도록 함  
- 이는 단순한 DAG를 유한 상태 기계(FSM)로 변환하며, LLM이 부분적으로 상태 전환을 안내함  
	- DAG 방식과 마찬가지로, 모든 프롬프트는 수작업으로 작성되며, 평가는 주관적임  
	- 시스템이 수작업으로 조정되므로 보고서 품질은 여전히 크게 변동함  
  
### 학습형: 엔드 투 엔드  
- 이전 방법의 단점인 무작위적인 프롬프트 엔지니어링과 측정 가능한 평가 지표의 부족으로 인해 변화를 추구하게 됨  
- 스탠포드의 STORM은 이러한 문제를 DSPy를 사용하여 엔드 투 엔드로 시스템을 최적화하여 해결함  
	- 그 결과, STORM은 위키피디아 기사와 견줄 만한 품질의 보고서를 생성함  
  
### 학습형: 대규모 추론 모델  
- LLM의 추론 능력 향상으로 인해 대규모 추론 모델이 딥 리서치에 매력적인 옵션이 됨  
- 예를 들어, OpenAI는 딥 리서치 모델을 다음과 같이 훈련함  
	- LLM-as-a-judge 및 평가 루브릭을 사용하여 출력을 평가  
- Google의 Gemini와 Perplexity의 챗 어시스턴트도 ‘딥 리서치’ 기능을 제공하지만, 이들이 모델이나 시스템을 최적화한 방법이나 실질적인 정량적 평가에 대한 문서를 공개하지 않음  
- 그러나 Google의 딥 리서치 제품 관리자는 팟캐스트 인터뷰에서 “특별한 접근 권한이 있습니다. 거의 동일한 모델(Gemini 1.5)입니다. 물론 자체적인 후속 훈련 작업을 수행합니다”라고 언급함  
- 이는 미세 조정 작업이 비중이 크지 않음을 시사함  
- 한편, xAI의 Grok은 보고서 생성에서 뛰어나지만, 두 번의 반복을 넘어서 검색하지 않는 것으로 보임  
- 개요 섹션을 몇 번, 각 섹션을 몇 번 검색하는 방식임  
  
### 경쟁 구도  
- 딥 리서치 기능을 제공하는 다양한 서비스의 역량을 평가하기 위해 개념적 지도를 개발함  
- 수직 축: 연구의 깊이(이전 결과를 기반으로 추가 정보를 수집하는 반복 주기 수)  
- 수평 축: 학습 수준(수작업으로 조정된 시스템부터 기계 학습 기술을 활용한 완전 학습 시스템까지)  
- 대표적인 학습형 시스템:  
	- OpenAI Deep Research: 연구 작업에 최적화된 강화 학습 기반 시스템  
	- DeepSeek: 일반적인 추론 및 도구 사용을 위해 훈련되었으며 연구 요구 사항에 적응 가능함  
	- Google Gemini: 광범위하게 훈련된 LLM으로 연구에 특화되지는 않음  
	- Stanford STORM: 전체 연구 프로세스를 엔드 투 엔드로 최적화한 시스템  
- 이 프레임워크를 통해 각 서비스가 반복 연구의 깊이와 학습 접근 방식을 어떻게 균형 있게 조정하는지 이해할 수 있음  
  
### 결론  
- 딥 리서치 기술은 빠르게 발전하고 있으며, 몇 달 전에는 효과가 없거나 구현되지 않았던 기술들이 현재는 성공적으로 적용되고 있음  
- 그러나 용어 사용이 모호하여 혼란을 가중시키고 있음  
- 이 글이 기술적 차이를 명확히 하고, 마케팅 용어에 휘둘리지 않도록 돕기를 바람

## Comments


### Comment 35615

- Author: halfenif
- Created: 2025-03-10T08:13:22+09:00
- Points: 1

> 동료가 "AlphaGO가 이세돌을 이겼지만, 이세돌은 훨씬 나은 자율주행 알고리즘을 가지고 있다"고 농담했음  
  
하지만 이세돌은 한 명 뿐이고 복제가 안 됨

### Comment 35533

- Author: neo
- Created: 2025-03-06T23:11:32+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43236184) 
- Han Xiao가 제안한 DeepSearch와 DeepResearch의 구분이 매우 흥미로움
  - DeepSearch는 최적의 답을 찾을 때까지 검색, 읽기, 추론을 반복하는 과정임
  - DeepResearch는 DeepSearch에 구조화된 프레임워크를 추가하여 긴 연구 보고서를 생성함
  - DeepSearch가 더 가치 있고 흥미로운 패턴이라고 생각함
  - DeepResearch는 결과를 "보고서"로 포장하는 화장 효과에 불과하며, 부정확하거나 오해의 소지가 있는 결과를 초래할 가능성이 큼

- 동료가 "AlphaGO가 이세돌을 이겼지만, 이세돌은 훨씬 나은 자율주행 알고리즘을 가지고 있다"고 농담했음
  - 시간이 지남에 따라 가장 발전된 AI 시스템과 일반적인 사람의 "평균적인 능력" 간의 큰 차이를 강조함

- OpenAI와 다른 회사들이 제공하는 것의 차이를 잘 포착한 것 같음
  - Google의 Gemini 2.0 Flash도 구글 검색과 네이티브 통합이 되어 있음
  - OpenAI의 DR은 특정 작업을 위한 모델을 훈련하는 경향이 있음
  - 모델 + 후속 훈련 RL을 제품으로 제공하는 방향으로 나아가고 있음
  - genspark MOA는 주어진 프롬프트에 대한 심층 보고서를 생성함

- AI가 점점 더 다양해지고 있으며, 다양한 에이전트가 생성될 가능성이 있음

- Grok이 보고서 생성에 뛰어나다고 하는데, 테이블 형식으로 답변을 요청하여 비교하기 쉽게 만듦
  - Amazon은 비교할 제품을 선택하지만, 비교 항목이 좋지 않음
  - Grok을 사용하여 열을 추가하거나 제거하고, 응답을 단축할 수 있음

- DR은 정보를 수집하고, 집중된 출발점에서 실제 연구를 수행하는 좋은 방법임
  - LLM이 이를 수행했다고 해서 더 현명해진 것은 아님
  - LLM은 주제를 더 깊이 이해하지 못함
  - 정보 통합 및 적용을 위한 더 깊은 능력이 필요함
  - 변환기 아키텍처의 한계로 인해 실시간 학습이 어려움

- OpenAI Deep Research와 Perplexity의 Deep Research를 비교한 결과, "좁고 깊음" vs "얕고 넓음"의 차이가 있음
  - OpenAI는 고품질 소스를 선택하여 특정 주제에 깊이 들어감
  - Perplexity는 많은 소스를 사용하여 표면적인 문제 공간을 제공함
  - OpenAI는 시간이 더 오래 걸림

- Deep Search/Research를 통해 다양한 워크플로우를 시도해 봄
  - 명령형(소스를 직접 선택하여 보고서 생성)과 선언형(DFS/BFS 알고리즘 사용) 접근법이 있음
  - STORM과 같은 시스템의 종단 간 흐름에 매료됨

- STORM은 높은 평가를 받았지만 GPT Researcher는 그렇지 않음
  - 다양한 예산에 맞게 GPT Researcher를 구성할 수 있음

- 인터넷에서 가장 큰 정보 조직 플랫폼들이지만, 제품을 설명할 다른 단어를 찾지 못함