OpenAI Deep Research의 문제점
(ben-evans.com)"OpenAI의 딥 리서치는 나를 위해 만들어졌지만 나는 사용 할 수 없음. 멋진 데모처럼 보이지만, 결국에는 어김없이 문제가 생김. 그리고 그 문제가 나타나는 방식이 꽤 흥미로움." - 베네딕트 에반스
- 내가 주로 하는 일은 리서치와 분석임
- 원하는 데이터를 찾고, 정리한 뒤 차트를 만들며, 거기서 통찰을 얻어 텍스트와 차트로 표현함
- 이렇게 만든 결과물을 토대로 사람들과 이야기 나누는 과정임
- OpenAI의 Deep Research는 이러한 ‘리서치 업무’ 를 자동화해주는 솔루션처럼 보임
- 나는 이 툴이 실제로 적합한지 궁금해하며 테스트를 해보려 했음
- 마침 Deep Research가 제공한 샘플 리포트 주제가 ‘스마트폰 시장’으로, 내가가 잘 아는 분야였음
- 샘플 리포트에 제시된 표는 겉보기엔 훌륭해 보였음
- 하지만 ‘어디서부터 온 데이터인가’ 라는 근본적 질문이 먼저 필요함
- Deep Research는 ‘Statista’와 ‘Statcounter’를 출처로 언급했지만, 두 출처 모두 문제점이 있음
- Statcounter는 트래픽 기반 통계라, 기기 사용량 편차로 인해 특정 플랫폼이 과대 또는 과소 반영되는 경향이 있음
- Statista는 SEO 최적화를 활용해 다른 출처들을 재가공하며, 실제 출처는 별도로 존재함
- 이는 “출처가 Google 검색 결과임”이라고 말하는 것과 별반 다르지 않음
- 예시로 일본 시장의 iOS/Android 점유율 수치를 보면 Deep Research가 “iOS 69%, Android 31%”라고 제시함
- Statcounter 자체도 최근 1년 이내에 69%라는 수치를 내놓은 적이 없음
- Statista 뒤에 있는 실제 출처는 Kantar Worldpanel인데, Kantar가 제공하는 수치는 정반대 수준임(약 Android 63%, iOS 36%)
- 한편 일본 정부 기관 자료(링크, 25페이지)는 “약 53% Android, 47% iOS”라고 밝힘
- 게다가 Kantar 수치는 달마다 20%포인트까지 변동하기도 해, ‘하드웨어 실제 설치 비율’을 보여주는 데이터라고 보기 어려움
- 이런 차이를 모두 확인하려면 결국 해당 표의 모든 숫자를 재검증해야 함
- 이 경우 애초에 툴을 쓴 이유인 ‘시간 절감 효과’가 크게 사라짐
- 결국 Deep Research가 표에 넣은 데이터를 맹신하기 어렵게 됨
- 여기서 문제가 되는 것은 “LLM이 데이터베이스가 아니라는 점” 임
- LLM은 확률적 방식으로 질문 의도를 파악하는 데 강점이 있지만, 특정 출처에서 정확한 수치를 추출하는 “결정론적” 작업에는 약함
- Deep Research가 “어떤 의미의 시장 점유율을 원하는지” 제대로 파악하고, 신뢰할 만한 출처에서 올바른 수치를 가져와야 하지만, 그러지 못했음
- 이는 곧 “LLM이 컴퓨터가 잘 못하는 부분(맥락 이해)은 잘하지만, 컴퓨터가 잘하는 부분(정확한 정보 추출)은 잘 못하는” 현상을 보여줌
- OpenAI는 사용자의 의도를 추론해주는 역할과 정확한 정보 수집 역할을 함께 맡기려 하지만, 지금 상태에서는 어긋남이 생김
- 더욱이 샘플 자체가 OpenAI 측이 홍보용으로 제시한 자료임에도 오류가 나타남
- 일부 사람은 “모델이 점차 개선되므로 나아질 것” 이라고 말할 수 있음
- 그러나 표가 85% 맞아도, 나머지 15%가 틀리면 여전히 전체 신뢰도가 낮음
- 100% 근접해야만 “완전히 자동화한 리서치”가 가능해지는데, 그 지점이 정말 도달 가능한가에 대해서는 회의적임
- 그럼에도 이 기술이 전혀 쓸모가 없다는 뜻은 아님
- 본인이 잘 아는 주제라면 20페이지짜리 보고서를 빠르게 생성한 뒤, 오류만 직접 수정하는 식으로 시간을 절약할 수 있음
- 나는 LLM을 “무한한 인턴” 이라고 부르는데, 인턴이 가져온 초안에 교정이 필요한 것과 유사함
- 컴퓨터가 마음의 자전거라는 Steve Jobs의 말을 인용하며, 인간의 능력을 보조하는 도구로 활용하면 좋을 것임
- 다만 근본적으로 두 가지 문제가 있음
- 모델이 틀릴 수 있음을 전제로 한 제품을 만들어야 하는지, 아니면 모델 자체를 신뢰할 수 있게 될 것이라 가정해야 하는지 불명확함
- OpenAI 같은 기업들은 거대 자본 외에 특별한 진입장벽이나 제품 역량(코딩·마케팅 분야 외)을 갖추지 못한 상태임
- Deep Research 같은 시도가 그저 “텍스트박스 + API” 이상의 ‘제품’이 되려면, 오류 관리나 사용 맥락을 해결해야 함
- Perplexity 같은 경쟁자들도 등장하고, 결국 LLM을 추상화한 API를 기반으로 다른 소프트웨어가 에러율을 관리하는 시나리오가 유력함
- 결론적으로, Deep Research는 흥미로운 시도이지만 아직 신뢰도를 담보하긴 어렵고, 업계가 어떤 방향으로 발전할지는 확실치 않음