Open Deep Research - 오픈소스로 구현한 딥 리서치

(huggingface.co)

OpenAI가 발표한 DeepResearch는 웹 검색을 통해 콘텐츠를 요약하고 질의 응답을 수행함
- GAIA 벤치마크에서 높은 점수를 달성해 주목받음
- 강력한 LLM과 내부적인 에이전트 프레임워크를 결합해 웹 브라우징 등 다양한 도구를 단계적으로 활용
OpenAI가 에이전트 프레임워크 세부 사항을 공개하지 않아, 이를 오픈소스로 재현하기 위해 24시간 동안 실험을 진행했음

에이전트 프레임워크는 무엇이고 왜 중요할까?

GAIA는 에이전트 성능을 평가하기 위한 매우 어려운 벤치마크임
예시로, “Embroidery from Uzbekistan”에 등장하는 과일을 특정 선박의 옛 아침 식단과 연결 지어 순서대로 나열하라는 복잡한 질문이 제시됨
단일 LLM만으로는 7% 수준에 그치지만, DeepResearch는 67% 이상을 달성해 큰 격차를 보임
GAIA 질문들은 멀티스텝 추론, 정보 검색, 멀티모달 처리 등이 필요하기에 에이전트 접근의 진가를 테스트하기 적합함

DeepResearch 방식 재현을 위해 오픈소스 LLM과 에이전트 프레임워크를 접목하는 실험을 진행함
목표는 간단한 텍스트 기반 웹 브라우저와 파일 열람 툴 등으로 GAIA 성능을 높이는 것임
CodeAgent 이용
- CodeAgent 방식은 JSON 대신 코드 형태로 액션을 표현함
- Wang et al. (2024) 연구에 따르면, 코드 표현이 압축적이고 직관적이며 LLM에 최적화된 장점이 있음
- 단계 수가 줄어들어 비용 절감 효과가 있으며, 멀티모달 상태 관리에도 유리함
적절한 도구 만들기
- 첫 번째 툴: 텍스트 기반 웹 브라우저
  - Operator 같은 풍부한 기능은 아직 구현되지 않았지만, 초기 단계로 단순 브라우징 기능만 제공함
- 두 번째 툴: 텍스트 파일 포맷 열람용 인스펙터
  - 단순 문서 처리 툴을 통해 내용 읽기 기능을 지원함
- 향후에는 더 세분화된 파일 포맷 지원, 웹 브라우징 시 비전 모델 연동, GUI 에이전트 도입 등을 계획함