12P by xguru 5일전 | ★ favorite | 댓글 2개
  • OpenAI가 ChatGPT에 도입한 새로운 에이전트형 기능 "심층 연구"
  • 인터넷에서 방대한 정보를 수집·분석·종합해, 복잡한 과제를 수십 분 안에 자동으로 해결해주는 역할을 수행함
  • 향후 AGI 달성을 위한 핵심 단계로서, 새로운 지식을 창출할 수 있는 ‘지식 종합’ 능력은 필수적

Deep research를 만든 이유

  • 고도의 지식 노동(금융, 과학, 정책, 엔지니어링 등)부터 대형 소비재 구매 리서치까지, 철저하고 신뢰할 수 있는 조사 결과가 필요한 사용자들을 위해 개발
  • 다양한 온라인 출처에서 드러나지 않는 니치 정보나 직관적이지 않은 사실도 빠르게 찾아내어 문서화 가능
  • 전문적 수준의 연구를 자동화해 업무 생산성을 크게 높일 수 있도록 함

Deep research 사용 방법

  • ChatGPT의 메시지 입력창에서 Deep research 모드를 선택
  • 요청(예: 경쟁사 분석, 맞춤형 제품 추천 등)과 함께 필요한 파일이나 스프레드시트를 첨부 가능
  • Deep research는 5분에서 최장 30분 동안 인터넷을 탐색해 세부적인 보고서를 작성함
  • 작업 진행 중에는 단계별 요약과 참조 출처가 표시되는 사이드바를 통해 과정을 확인 가능
  • 최종 결과물은 광범위한 인용과 함께 보고서 형태로 제공되며, 향후 이미지·데이터 시각화 등도 포함될 예정

작동 원리

  • OpenAI o1의 추론 능력을 확장한, 다음 세대 모델(OpenAI o3 기반)을 활용해 복잡한 브라우징과 분석 작업에 대응
  • 여러 단계의 계획 수립, 정보 수집, 중간 피드백 반영을 스스로 수행
  • 사용자 업로드 파일에도 접근해 Python 도구를 이용한 그래프 작성 등 분석 작업을 진행할 수 있음
  • 특정 문장 단위로 출처를 인용해 정확도와 투명성을 높임

Humanity’s Last Exam 평가

  • 최근 공개된 광범위 평가인 Humanity’s Last Exam에서 26.6% 정답률을 기록해, 이전 모델 대비 뛰어난 성능을 보임
    • 3,000개 이상의 전문가 수준 문제를 출제하며, 여러 학문 분야를 망라함
  • 화학, 인문·사회, 수학 분야에서 이전 모델 대비 큰 향상을 보였음
  • 비교 대상으로 GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1 등 여러 모델들이 있었는데, Deep research 모델이 26.6%로 가장 높은 정확도를 보임
    • GPT-4o는 약 3.3%, Claude 3.5 Sonnet는 4.3%, OpenAI o1은 9.1%였음

GAIA 벤치마크

  • GAIA는 웹 브라우징, 멀티모달 처리, 도구 사용 능력을 모두 요구하는 실제 세계 질문을 평가하는 지표임
  • Deep research 모델이 해당 벤치마크에서 이전 최고 성능을 갱신함
  • GAIA 문제는 난이도를 1~3레벨로 구분해 놓았으며, Deep research는 모든 난이도에서 기존 최고 기록보다 높은 점수를 보여줌
  • 구체적으로 이전 기록 대비 각 레벨에서 대략 6~8%가량의 개선 폭을 보이면서 전체 평균도 높아졌음

전문가 수준 작업

  • 사내 평가에서, 수 시간에 걸친 수작업 조사를 대체할 만큼 높은 자동화 수준을 보임
  • 모델이 자료를 많이 브라우징하고 생각할수록 성능이 향상되므로, 계산에 충분한 시간을 주는 것이 중요함

제한사항

  • 일부 사실 관계 오류나 잘못된 추론(hallucination)이 여전히 발생 가능함
  • 루머와 신뢰도 높은 출처 구분에 어려움을 보이며, 불확실성 표현이 정확하지 않을 수 있음
  • 출시 초기에는 보고서나 인용 형식이 약간 매끄럽지 않을 수 있으며, 수행 시간이 길어지는 경우가 있을 수 있음

접근 및 사용

  • 현재 Deep research는 연산 비용이 높아 Pro 사용자 대상으로 우선 제공되며, 월 최대 100회까지 가능함
  • 곧 Plus 및 Team 사용자에게도 순차적으로 개방될 예정
  • 영국, 스위스, 유럽경제지역(EEA) 사용자에게는 추후 지원을 확대할 계획
  • 향후 더 빠르고 효율적인 작은 모델 버전을 통해 모든 유료 계정의 요청 제한이 크게 늘어날 것

향후 계획

  • Deep research는 우선 ChatGPT 웹 버전에서 사용 가능하며, 모바일·데스크톱 앱에도 곧 탑재 예정
  • 향후에는 구독형 데이터나 내부 리소스에도 연결해, 더욱 개인화된 결과물을 제공할 계획
  • Deep research를 Operator와 결합하면 오프라인/온라인 실제 작업까지 자동으로 수행하는 고도화된 에이전트 경험을 구축할 수 있을 것으로 기대

Hacker News 의견

  • 한 사용자는 자신에 대한 보고서를 작성해 보았으나, 여러 오류가 발생했음을 언급함. 예를 들어, Stack Overflow에서의 명성을 잘못 인식했으며, 인터뷰 인용도 잘못된 사람으로부터 가져왔음.

  • 또 다른 사용자는 언어 모델이 완전히 정확한 답변을 제공하지 못하는 경우가 10% 정도 발생하며, 이는 신뢰를 저하시킬 수 있음을 지적함. 답변의 정확성을 확인하는 데 걸리는 시간도 중요한 요소임을 강조함.

  • 한 사용자는 최근 Standard에서 출시한 보고서 생성 프로젝트와 유사하다고 언급함.

  • Gemini가 "Deep Research"라는 이름으로 몇 달 전부터 이 기능을 제공하고 있음을 언급함. AI 세계에서의 이름 중복 현상에 대한 의문을 제기함.

  • 한 사용자는 오류와 환각 문제를 인정하더라도, 많은 사람들이 이를 간과하고 결과를 자신의 파워포인트에 삽입할 것이라고 우려함. 이러한 도구가 강력해질수록 정보의 왜곡이 더 심해질 것이라고 경고함.

  • unreleased o3 모델이 이 기능을 지원하고 있으며, 이는 상당히 인상적인 모델임을 언급함. Google, DeepSeek, Perplexity에서 선도적인 모델임을 강조함.

  • 학계에서 일하는 사람들에게 흥미로운 도구임을 언급하며, 테스트해 보고 싶지만 비용이 부담스러움을 토로함. 특정 프롬프트를 사용하여 테스트해 줄 것을 요청함.

  • AGI와 ASI의 전제 조건으로서의 능력에 대한 의문을 제기함. 연구의 중요성에 대해 회의적이며, 실행 결과가 아닌 답변에 의존하는 것에 대해 우려함.

  • 내부 테스트에서 20%의 통과율만 달성했음을 언급하며, 많은 양의 부정확한 텍스트를 검토하는 데 시간이 많이 걸린다고 지적함. 더 반복적인 과정이 필요하다고 주장함.

  • 블로그에서 유명한 전문가들이나 노출을 원하는 사람들이 계속 글을 쓸지에 대한 의문을 제기함. 독자가 모두 봇이 되는 상황을 우려함.

엄청나게 기대중입니다.. 이게 원-모어-띵이 아니라니..
딥식이 이슈는 이걸로 묻히려나요