# OpenAI Deep Research의 문제점

> Clean Markdown view of GeekNews topic #19323. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19323](https://news.hada.io/topic?id=19323)
- GeekNews Markdown: [https://news.hada.io/topic/19323.md](https://news.hada.io/topic/19323.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-02-20T09:46:01+09:00
- Updated: 2025-02-20T09:46:01+09:00
- Original source: [ben-evans.com](https://www.ben-evans.com/benedictevans/2025/2/17/the-deep-research-problem)
- Points: 23
- Comments: 0

## Summary

OpenAI의 Deep Research는 리서치 업무를 자동화하려는 시도로 보이지만, 데이터 출처의 신뢰성 문제로 인해 결과물의 정확성을 보장하기 어렵습니다. 특히, LLM이 데이터베이스가 아니라는 점에서 특정 출처에서 정확한 수치를 추출하는 데 한계가 있으며, 이는 사용자가 결과물을 맹신하기 어렵게 만듭니다. 이러한 문제에도 불구하고, 잘 아는 주제에 대해 보고서를 빠르게 생성하고 오류를 수정하는 방식으로 시간을 절약할 수 있는 도구로 활용할 수 있지만, 근본적인 신뢰성 확보가 필요합니다.

## Topic Body

> "OpenAI의 딥 리서치는 나를 위해 만들어졌지만 나는 사용 할 수 없음.  멋진 데모처럼 보이지만, 결국에는 어김없이 문제가 생김. 그리고 그 문제가 나타나는 방식이 꽤 흥미로움." - 베네딕트 에반스  
- 내가 주로 하는 일은 리서치와 분석임  
  - 원하는 데이터를 찾고, 정리한 뒤 차트를 만들며, 거기서 통찰을 얻어 텍스트와 차트로 표현함  
  - 이렇게 만든 결과물을 토대로 사람들과 이야기 나누는 과정임  
- OpenAI의 Deep Research는 이러한 **‘리서치 업무’** 를 자동화해주는 솔루션처럼 보임  
  - 나는 이 툴이 실제로 적합한지 궁금해하며 테스트를 해보려 했음  
  - 마침 Deep Research가 제공한 샘플 리포트 주제가 ‘스마트폰 시장’으로, 내가가 잘 아는 분야였음  
- 샘플 리포트에 제시된 표는 겉보기엔 훌륭해 보였음  
  - 하지만 **‘어디서부터 온 데이터인가’** 라는 근본적 질문이 먼저 필요함  
  - Deep Research는 ‘Statista’와 ‘Statcounter’를 출처로 언급했지만, **두 출처 모두 문제점이 있음**  
    - Statcounter는 트래픽 기반 통계라, 기기 사용량 편차로 인해 특정 플랫폼이 과대 또는 과소 반영되는 경향이 있음  
    - Statista는 SEO 최적화를 활용해 다른 출처들을 재가공하며, 실제 출처는 별도로 존재함  
      - 이는 “출처가 Google 검색 결과임”이라고 말하는 것과 별반 다르지 않음  
- 예시로 일본 시장의 iOS/Android 점유율 수치를 보면 Deep Research가 “iOS 69%, Android 31%”라고 제시함  
  - Statcounter 자체도 최근 1년 이내에 69%라는 수치를 **내놓은 적이 없음**  
  - Statista 뒤에 있는 실제 출처는 Kantar Worldpanel인데, Kantar가 제공하는 수치는 **정반대 수준**임(약 Android 63%, iOS 36%)  
  - 한편 일본 정부 기관 자료([링크](https://www.jftc.go.jp/file/230209EN_hontai2.pdf), 25페이지)는 “약 53% Android, 47% iOS”라고 밝힘  
  - 게다가 Kantar 수치는 달마다 20%포인트까지 변동하기도 해, ‘하드웨어 실제 설치 비율’을 보여주는 데이터라고 보기 어려움  
- 이런 **차이를 모두 확인하려면 결국 해당 표의 모든 숫자를 재검증**해야 함  
  - 이 경우 애초에 툴을 쓴 이유인 **‘시간 절감 효과’가 크게 사라짐**  
  - 결국 Deep Research가 표에 넣은 데이터를 맹신하기 어렵게 됨  
- 여기서 문제가 되는 것은 **“LLM이 데이터베이스가 아니라는 점”** 임  
  - LLM은 확률적 방식으로 질문 의도를 파악하는 데 강점이 있지만, 특정 출처에서 정확한 수치를 추출하는 “결정론적” 작업에는 약함  
  - Deep Research가 “어떤 의미의 시장 점유율을 원하는지” 제대로 파악하고, 신뢰할 만한 출처에서 올바른 수치를 가져와야 하지만, 그러지 못했음  
- 이는 곧 **“LLM이 컴퓨터가 잘 못하는 부분(맥락 이해)은 잘하지만, 컴퓨터가 잘하는 부분(정확한 정보 추출)은 잘 못하는”** 현상을 보여줌  
  - OpenAI는 사용자의 의도를 추론해주는 역할과 정확한 정보 수집 역할을 함께 맡기려 하지만, 지금 상태에서는 어긋남이 생김  
  - 더욱이 샘플 자체가 OpenAI 측이 홍보용으로 제시한 자료임에도 오류가 나타남  
- 일부 사람은 **“모델이 점차 개선되므로 나아질 것”** 이라고 말할 수 있음  
  - 그러나 **표가 85% 맞아도, 나머지 15%가 틀리면 여전히 전체 신뢰도가 낮음**  
  - 100% 근접해야만 “완전히 자동화한 리서치”가 가능해지는데, 그 지점이 정말 도달 가능한가에 대해서는 회의적임  
- 그럼에도 이 기술이 **전혀 쓸모가 없다는 뜻은 아님**  
  - 본인이 잘 아는 주제라면 20페이지짜리 보고서를 빠르게 생성한 뒤, 오류만 직접 수정하는 식으로 시간을 절약할 수 있음  
  - 나는 LLM을 **“무한한 인턴”** 이라고 부르는데, **인턴이 가져온 초안에 교정이 필요**한 것과 유사함  
  - 컴퓨터가 마음의 자전거라는 Steve Jobs의 말을 인용하며, 인간의 능력을 보조하는 도구로 활용하면 좋을 것임  
- 다만 근본적으로 두 가지 문제가 있음  
  - 모델이 틀릴 수 있음을 전제로 한 제품을 만들어야 하는지, 아니면 모델 자체를 신뢰할 수 있게 될 것이라 가정해야 하는지 불명확함  
  - OpenAI 같은 기업들은 거대 자본 외에 특별한 진입장벽이나 제품 역량(코딩·마케팅 분야 외)을 갖추지 못한 상태임  
     - Deep Research 같은 시도가 그저 “텍스트박스 + API” 이상의 ‘제품’이 되려면, **오류 관리나 사용 맥락을 해결**해야 함  
     - Perplexity 같은 경쟁자들도 등장하고, 결국 **LLM을 추상화한 API를 기반으로 다른 소프트웨어가 에러율을 관리하는 시나리오**가 유력함  
- 결론적으로, Deep Research는 흥미로운 시도이지만 **아직 신뢰도를 담보하긴 어렵고, 업계가 어떤 방향으로 발전할지는 확실치 않음**

## Comments



_No public comments on this page._
