OpenAI Deep Research의 문제점

(ben-evans.com)

23P by xguru 2025-02-20 | ★ favorite | 댓글과 토론

"OpenAI의 딥 리서치는 나를 위해 만들어졌지만 나는 사용 할 수 없음. 멋진 데모처럼 보이지만, 결국에는 어김없이 문제가 생김. 그리고 그 문제가 나타나는 방식이 꽤 흥미로움." - 베네딕트 에반스

내가 주로 하는 일은 리서치와 분석임
- 원하는 데이터를 찾고, 정리한 뒤 차트를 만들며, 거기서 통찰을 얻어 텍스트와 차트로 표현함
- 이렇게 만든 결과물을 토대로 사람들과 이야기 나누는 과정임
OpenAI의 Deep Research는 이러한 ‘리서치 업무’ 를 자동화해주는 솔루션처럼 보임
- 나는 이 툴이 실제로 적합한지 궁금해하며 테스트를 해보려 했음
- 마침 Deep Research가 제공한 샘플 리포트 주제가 ‘스마트폰 시장’으로, 내가가 잘 아는 분야였음
샘플 리포트에 제시된 표는 겉보기엔 훌륭해 보였음
- 하지만 ‘어디서부터 온 데이터인가’ 라는 근본적 질문이 먼저 필요함
- Deep Research는 ‘Statista’와 ‘Statcounter’를 출처로 언급했지만, 두 출처 모두 문제점이 있음
  - Statcounter는 트래픽 기반 통계라, 기기 사용량 편차로 인해 특정 플랫폼이 과대 또는 과소 반영되는 경향이 있음
  - Statista는 SEO 최적화를 활용해 다른 출처들을 재가공하며, 실제 출처는 별도로 존재함
    - 이는 “출처가 Google 검색 결과임”이라고 말하는 것과 별반 다르지 않음
예시로 일본 시장의 iOS/Android 점유율 수치를 보면 Deep Research가 “iOS 69%, Android 31%”라고 제시함
- Statcounter 자체도 최근 1년 이내에 69%라는 수치를 내놓은 적이 없음
- Statista 뒤에 있는 실제 출처는 Kantar Worldpanel인데, Kantar가 제공하는 수치는 정반대 수준임(약 Android 63%, iOS 36%)
- 한편 일본 정부 기관 자료(링크, 25페이지)는 “약 53% Android, 47% iOS”라고 밝힘
- 게다가 Kantar 수치는 달마다 20%포인트까지 변동하기도 해, ‘하드웨어 실제 설치 비율’을 보여주는 데이터라고 보기 어려움
이런 차이를 모두 확인하려면 결국 해당 표의 모든 숫자를 재검증해야 함
- 이 경우 애초에 툴을 쓴 이유인 ‘시간 절감 효과’가 크게 사라짐
- 결국 Deep Research가 표에 넣은 데이터를 맹신하기 어렵게 됨
여기서 문제가 되는 것은 “LLM이 데이터베이스가 아니라는 점” 임
- LLM은 확률적 방식으로 질문 의도를 파악하는 데 강점이 있지만, 특정 출처에서 정확한 수치를 추출하는 “결정론적” 작업에는 약함
- Deep Research가 “어떤 의미의 시장 점유율을 원하는지” 제대로 파악하고, 신뢰할 만한 출처에서 올바른 수치를 가져와야 하지만, 그러지 못했음
이는 곧 “LLM이 컴퓨터가 잘 못하는 부분(맥락 이해)은 잘하지만, 컴퓨터가 잘하는 부분(정확한 정보 추출)은 잘 못하는” 현상을 보여줌
- OpenAI는 사용자의 의도를 추론해주는 역할과 정확한 정보 수집 역할을 함께 맡기려 하지만, 지금 상태에서는 어긋남이 생김
- 더욱이 샘플 자체가 OpenAI 측이 홍보용으로 제시한 자료임에도 오류가 나타남
일부 사람은 “모델이 점차 개선되므로 나아질 것” 이라고 말할 수 있음
- 그러나 표가 85% 맞아도, 나머지 15%가 틀리면 여전히 전체 신뢰도가 낮음
- 100% 근접해야만 “완전히 자동화한 리서치”가 가능해지는데, 그 지점이 정말 도달 가능한가에 대해서는 회의적임
그럼에도 이 기술이 전혀 쓸모가 없다는 뜻은 아님
- 본인이 잘 아는 주제라면 20페이지짜리 보고서를 빠르게 생성한 뒤, 오류만 직접 수정하는 식으로 시간을 절약할 수 있음
- 나는 LLM을 “무한한 인턴” 이라고 부르는데, 인턴이 가져온 초안에 교정이 필요한 것과 유사함
- 컴퓨터가 마음의 자전거라는 Steve Jobs의 말을 인용하며, 인간의 능력을 보조하는 도구로 활용하면 좋을 것임
다만 근본적으로 두 가지 문제가 있음
- 모델이 틀릴 수 있음을 전제로 한 제품을 만들어야 하는지, 아니면 모델 자체를 신뢰할 수 있게 될 것이라 가정해야 하는지 불명확함
- OpenAI 같은 기업들은 거대 자본 외에 특별한 진입장벽이나 제품 역량(코딩·마케팅 분야 외)을 갖추지 못한 상태임
  - Deep Research 같은 시도가 그저 “텍스트박스 + API” 이상의 ‘제품’이 되려면, 오류 관리나 사용 맥락을 해결해야 함
  - Perplexity 같은 경쟁자들도 등장하고, 결국 LLM을 추상화한 API를 기반으로 다른 소프트웨어가 에러율을 관리하는 시나리오가 유력함
결론적으로, Deep Research는 흥미로운 시도이지만 아직 신뢰도를 담보하긴 어렵고, 업계가 어떤 방향으로 발전할지는 확실치 않음

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

OpenAI Deep Research의 문제점

함께 보면 좋은 글 β

댓글과 토론