6P by GN⁺ | ★ favorite | 댓글 2개
  • 최근 AI랩들은 ‘딥 리서치(Deep Research)’라는 용어를 사용하여 다양한 기능을 발표하고 있음
  • Google은 2024년 12월 Gemini 1.5 Deep Research를, OpenAI는 2025년 2월 Deep Research를, Perplexity는 그 직후 자체 Deep Research를 공개함
  • 이 외에도 DeepSeek, Alibaba의 Qwen, Elon Musk의 xAI 등이 챗봇 어시스턴트에 SearchDeep Search 기능을 도입함
  • GitHub에는 수십 개의 오픈 소스 ‘딥 리서치’ 구현체가 등장함
  • 이는 2025년의 Retrieval-Augmented Generation(RAG)과 유사하게 ‘딥 리서치’라는 용어가 명확한 정의 없이 사용되고 있음을 시사함

Deep Research, Deep Search, 또는 그냥 Search

Google : “딥 리서치는 AI를 사용하여 복잡한 주제를 탐구하고, 포괄적이고 읽기 쉬운 보고서를 제공하며, Gemini가 복잡한 작업을 처리하여 시간을 절약하는 데 더욱 능숙해지고 있음을 보여줍니다.” -
OpenAI : “딥 리서치는 OpenAI의 차세대 에이전트로, 사용자가 프롬프트를 제공하면 ChatGPT가 수백 개의 온라인 소스를 찾아 분석하고 종합하여 연구 분석가 수준의 포괄적인 보고서를 생성합니다.”
Perplexity : “딥 리서치 질문을 하면 Perplexity는 수십 개의 검색을 수행하고 수백 개의 소스를 읽으며 자료를 추론하여 자율적으로 포괄적인 보고서를 제공합니다.”

  • 마케팅 용어를 제외하면, 딥 리서치는 다음과 같이 정의할 수 있음

사용자 쿼리를 받아들이고, 대형 언어 모델(LLM)을 에이전트로 사용하여 반복적으로 정보를 검색하고 분석하며, 상세한 보고서를 출력하는 보고서 생성 시스템

  • 자연어 처리(NLP) 용어로는 ’보고서 생성(report generation)’으로 알려져 있음

구현 방식

  • ChatGPT의 등장 이후, 보고서 생성 또는 ‘딥 리서치’는 AI 엔지니어링의 주요 초점이 되었음
  • 필자는 2023년 초 해커톤에서 이를 실험해보았으며, 이는 AI 엔지니어링이 막 떠오르던 시기였음
  • LangChain, AutoGPT, GPT-Researcher, 프롬프트 엔지니어링 등 도구와 수많은 데모가 트위터와 링크드인에서 큰 관심을 받았음
  • 그러나 실제 도전 과제는 구현 세부 사항에 있음
  • 아래에서는 보고서 생성 시스템을 구축하기 위한 일반적인 패턴을 탐구하고, 그 차이점을 강조하며, 다양한 벤더의 제공 사항을 분류함

비학습형: 방향성 비순환 그래프(DAG)

  • 초기에는 GPT-3.5와 같은 LLM에게 보고서를 처음부터 생성하도록 요청하는 것이 실용적이지 않다는 것을 발견함
  • 대신, 여러 LLM 호출을 연결하기 위해 Composite 패턴을 사용함
  • 사용자 쿼리를 분해하여 보고서 개요를 생성함
  • 각 섹션에 대해 검색 엔진이나 지식 베이스에서 관련 정보를 검색하고 요약함
  • 마지막으로 LLM을 사용하여 섹션을 일관된 보고서로 결합함
  • GPT-Researcher가 그 예시임
    • 이 시스템의 모든 프롬프트는 ‘프롬프트 엔지니어링’을 통해 세심하게 조정됨
    • 평가는 주관적인 출력물 확인에 의존하며, 보고서 품질은 일관되지 않음
    • 작동할 때는 훌륭하지만, 항상 안정적이지는 않음

비학습형: 유한 상태 기계(FSM)

  • 보고서 품질을 향상시키기 위해 엔지니어들은 DAG 접근 방식에 복잡성을 추가함
  • 단일 패스 프로세스 대신, Reflexion 및 자기 반성(self-reflection)과 같은 구조적 패턴을 도입하여 LLM이 자신의 출력을 검토하고 개선하도록 함
  • 이는 단순한 DAG를 유한 상태 기계(FSM)로 변환하며, LLM이 부분적으로 상태 전환을 안내함
    • DAG 방식과 마찬가지로, 모든 프롬프트는 수작업으로 작성되며, 평가는 주관적임
    • 시스템이 수작업으로 조정되므로 보고서 품질은 여전히 크게 변동함

학습형: 엔드 투 엔드

  • 이전 방법의 단점인 무작위적인 프롬프트 엔지니어링과 측정 가능한 평가 지표의 부족으로 인해 변화를 추구하게 됨
  • 스탠포드의 STORM은 이러한 문제를 DSPy를 사용하여 엔드 투 엔드로 시스템을 최적화하여 해결함
    • 그 결과, STORM은 위키피디아 기사와 견줄 만한 품질의 보고서를 생성함

학습형: 대규모 추론 모델

  • LLM의 추론 능력 향상으로 인해 대규모 추론 모델이 딥 리서치에 매력적인 옵션이 됨
  • 예를 들어, OpenAI는 딥 리서치 모델을 다음과 같이 훈련함
    • LLM-as-a-judge 및 평가 루브릭을 사용하여 출력을 평가
  • Google의 Gemini와 Perplexity의 챗 어시스턴트도 ‘딥 리서치’ 기능을 제공하지만, 이들이 모델이나 시스템을 최적화한 방법이나 실질적인 정량적 평가에 대한 문서를 공개하지 않음
  • 그러나 Google의 딥 리서치 제품 관리자는 팟캐스트 인터뷰에서 “특별한 접근 권한이 있습니다. 거의 동일한 모델(Gemini 1.5)입니다. 물론 자체적인 후속 훈련 작업을 수행합니다”라고 언급함
  • 이는 미세 조정 작업이 비중이 크지 않음을 시사함
  • 한편, xAI의 Grok은 보고서 생성에서 뛰어나지만, 두 번의 반복을 넘어서 검색하지 않는 것으로 보임
  • 개요 섹션을 몇 번, 각 섹션을 몇 번 검색하는 방식임

경쟁 구도

  • 딥 리서치 기능을 제공하는 다양한 서비스의 역량을 평가하기 위해 개념적 지도를 개발함
  • 수직 축: 연구의 깊이(이전 결과를 기반으로 추가 정보를 수집하는 반복 주기 수)
  • 수평 축: 학습 수준(수작업으로 조정된 시스템부터 기계 학습 기술을 활용한 완전 학습 시스템까지)
  • 대표적인 학습형 시스템:
    • OpenAI Deep Research: 연구 작업에 최적화된 강화 학습 기반 시스템
    • DeepSeek: 일반적인 추론 및 도구 사용을 위해 훈련되었으며 연구 요구 사항에 적응 가능함
    • Google Gemini: 광범위하게 훈련된 LLM으로 연구에 특화되지는 않음
    • Stanford STORM: 전체 연구 프로세스를 엔드 투 엔드로 최적화한 시스템
  • 이 프레임워크를 통해 각 서비스가 반복 연구의 깊이와 학습 접근 방식을 어떻게 균형 있게 조정하는지 이해할 수 있음

결론

  • 딥 리서치 기술은 빠르게 발전하고 있으며, 몇 달 전에는 효과가 없거나 구현되지 않았던 기술들이 현재는 성공적으로 적용되고 있음
  • 그러나 용어 사용이 모호하여 혼란을 가중시키고 있음
  • 이 글이 기술적 차이를 명확히 하고, 마케팅 용어에 휘둘리지 않도록 돕기를 바람
GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

댓글과 토론

동료가 "AlphaGO가 이세돌을 이겼지만, 이세돌은 훨씬 나은 자율주행 알고리즘을 가지고 있다"고 농담했음

하지만 이세돌은 한 명 뿐이고 복제가 안 됨

Hacker News 의견
  • Han Xiao가 제안한 DeepSearch와 DeepResearch의 구분이 매우 흥미로움

    • DeepSearch는 최적의 답을 찾을 때까지 검색, 읽기, 추론을 반복하는 과정임
    • DeepResearch는 DeepSearch에 구조화된 프레임워크를 추가하여 긴 연구 보고서를 생성함
    • DeepSearch가 더 가치 있고 흥미로운 패턴이라고 생각함
    • DeepResearch는 결과를 "보고서"로 포장하는 화장 효과에 불과하며, 부정확하거나 오해의 소지가 있는 결과를 초래할 가능성이 큼
  • 동료가 "AlphaGO가 이세돌을 이겼지만, 이세돌은 훨씬 나은 자율주행 알고리즘을 가지고 있다"고 농담했음

    • 시간이 지남에 따라 가장 발전된 AI 시스템과 일반적인 사람의 "평균적인 능력" 간의 큰 차이를 강조함
  • OpenAI와 다른 회사들이 제공하는 것의 차이를 잘 포착한 것 같음

    • Google의 Gemini 2.0 Flash도 구글 검색과 네이티브 통합이 되어 있음
    • OpenAI의 DR은 특정 작업을 위한 모델을 훈련하는 경향이 있음
    • 모델 + 후속 훈련 RL을 제품으로 제공하는 방향으로 나아가고 있음
    • genspark MOA는 주어진 프롬프트에 대한 심층 보고서를 생성함
  • AI가 점점 더 다양해지고 있으며, 다양한 에이전트가 생성될 가능성이 있음

  • Grok이 보고서 생성에 뛰어나다고 하는데, 테이블 형식으로 답변을 요청하여 비교하기 쉽게 만듦

    • Amazon은 비교할 제품을 선택하지만, 비교 항목이 좋지 않음
    • Grok을 사용하여 열을 추가하거나 제거하고, 응답을 단축할 수 있음
  • DR은 정보를 수집하고, 집중된 출발점에서 실제 연구를 수행하는 좋은 방법임

    • LLM이 이를 수행했다고 해서 더 현명해진 것은 아님
    • LLM은 주제를 더 깊이 이해하지 못함
    • 정보 통합 및 적용을 위한 더 깊은 능력이 필요함
    • 변환기 아키텍처의 한계로 인해 실시간 학습이 어려움
  • OpenAI Deep Research와 Perplexity의 Deep Research를 비교한 결과, "좁고 깊음" vs "얕고 넓음"의 차이가 있음

    • OpenAI는 고품질 소스를 선택하여 특정 주제에 깊이 들어감
    • Perplexity는 많은 소스를 사용하여 표면적인 문제 공간을 제공함
    • OpenAI는 시간이 더 오래 걸림
  • Deep Search/Research를 통해 다양한 워크플로우를 시도해 봄

    • 명령형(소스를 직접 선택하여 보고서 생성)과 선언형(DFS/BFS 알고리즘 사용) 접근법이 있음
    • STORM과 같은 시스템의 종단 간 흐름에 매료됨
  • STORM은 높은 평가를 받았지만 GPT Researcher는 그렇지 않음

    • 다양한 예산에 맞게 GPT Researcher를 구성할 수 있음
  • 인터넷에서 가장 큰 정보 조직 플랫폼들이지만, 제품을 설명할 다른 단어를 찾지 못함