Agents SDK의 차세대 진화

(openai.com)

OpenAI가 Agents SDK를 대폭 업데이트하여, 에이전트가 파일 검사·명령 실행·코드 편집·장기 작업을 제어된 샌드박스 환경에서 수행할 수 있는 표준화된 인프라 제공
새 하니스(harness)는 구성 가능한 메모리, 샌드박스 인식 오케스트레이션, Codex 스타일 파일시스템 도구, MCP·skills·AGENTS.md·shell·apply patch 등 프론티어 에이전트 시스템의 주요 프리미티브를 통합
네이티브 샌드박스 실행 지원으로 Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel 등 다양한 샌드박스 제공업체를 기본 지원하거나 자체 샌드박스 연결 가능
하니스와 컴퓨팅 분리 아키텍처로 프롬프트 인젝션 방어, 스냅샷 기반 내구성 실행, 다중 컨테이너 병렬화 등 보안·확장성 확보
API 기반 표준 토큰 및 도구 사용 과금으로 모든 고객에게 일반 제공(GA)되며, TypeScript 지원과 코드 모드·서브에이전트 기능이 향후 추가 예정

기존 에이전트 시스템의 한계

개발자가 유용한 에이전트를 구축하려면 최고의 모델뿐 아니라 파일 검사, 명령 실행, 코드 작성, 다단계 작업 유지를 지원하는 시스템이 필요
기존 접근 방식의 트레이드오프
- 모델 비종속 프레임워크는 유연하지만 프론티어 모델의 기능을 완전히 활용하지 못함
- 모델 제공자 SDK는 모델에 가깝지만 하니스에 대한 가시성이 부족한 경우가 많음
- 관리형 에이전트 API는 배포를 단순화하지만 에이전트 실행 위치와 민감 데이터 접근 방식을 제한

이번 릴리스로 Agents SDK 하니스가 문서, 파일, 시스템을 다루는 에이전트에 더 강력한 기능 제공
새로 통합된 주요 프리미티브
- MCP를 통한 도구 사용
- skills를 통한 프로그레시브 디스클로저
- AGENTS.md를 통한 커스텀 인스트럭션
- shell 도구를 통한 코드 실행
- apply patch 도구를 통한 파일 편집
하니스가 시간이 지남에 따라 새로운 에이전틱 패턴과 프리미티브를 계속 통합할 예정이므로, 개발자는 핵심 인프라 업데이트 대신 도메인별 로직에 집중 가능
하니스는 프론티어 모델이 최적 성능을 발휘하는 방식에 맞춰 실행을 정렬함으로써, 특히 장기 실행 작업이나 다양한 도구·시스템 간 조율이 필요한 복잡한 작업에서 안정성과 성능 향상
각 제품의 고유한 요구사항을 지원하도록 설계되어, 도구 사용·메모리·샌드박스 환경 등을 개발자의 기존 스택에 맞게 유연하게 조정 가능

업데이트된 Agents SDK는 샌드박스 실행을 네이티브로 지원하여, 에이전트가 작업에 필요한 파일·도구·의존성을 갖춘 제어된 컴퓨터 환경에서 실행 가능
많은 유용한 에이전트는 파일 읽기/쓰기, 의존성 설치, 코드 실행, 도구 안전 사용이 가능한 작업 공간(workspace) 이 필요하며, 네이티브 샌드박스 지원은 이를 별도로 구성할 필요 없이 기본 제공
자체 샌드박스를 가져오거나 Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel 등 내장 지원 활용 가능
환경을 여러 제공업체 간 이식 가능하게 만들기 위해 Manifest 추상화 도입
- 로컬 파일 마운트, 출력 디렉터리 정의 가능
- AWS S3, Google Cloud Storage, Azure Blob Storage, Cloudflare R2 등 스토리지 제공업체에서 데이터 가져오기 지원
개발자에게 로컬 프로토타입에서 프로덕션 배포까지 일관된 환경 구성 방법 제공
모델에게 입력 위치, 출력 위치, 장기 실행 작업 중 작업 정리 방법에 대한 예측 가능한 작업 공간 제공

에이전트 시스템은 프롬프트 인젝션 및 데이터 유출 시도를 전제로 설계해야 하며, 하니스와 컴퓨팅 분리는 모델 생성 코드가 실행되는 환경에서 자격 증명을 격리하는 데 기여
내구적 실행(durable execution) 지원
- 에이전트 상태가 외부화되면 샌드박스 컨테이너 손실이 실행 손실로 이어지지 않음
- 내장된 스냅샷팅과 리하이드레이션을 통해 원래 환경이 실패하거나 만료되면 새 컨테이너에서 마지막 체크포인트부터 상태 복원 및 계속 실행 가능
확장성 강화
- 에이전트 실행이 하나 또는 다수의 샌드박스를 사용할 수 있음
- 필요할 때만 샌드박스 호출, 서브에이전트를 격리된 환경으로 라우팅 가능
- 다중 컨테이너 병렬화로 더 빠른 실행 지원

Oscar Health의 Staff Engineer & AI Tech Lead인 Rachael Burns에 따르면, 업데이트된 Agents SDK를 통해 이전 접근 방식으로는 충분히 안정적으로 처리할 수 없었던 임상 기록 워크플로우 자동화를 프로덕션 수준으로 구현
단순한 메타데이터 추출이 아니라 길고 복잡한 기록에서 각 진료 경계(encounter boundary)를 정확히 이해하는 것이 핵심 차별점
결과적으로 각 환자의 방문 상황을 더 빠르게 파악하여 환자 케어 및 경험 개선에 기여

Agents SDK를 지속 발전시키며, 더 적은 커스텀 인프라로 더 강력한 에이전트를 프로덕션에 투입할 수 있도록 지원하되, 개발자의 유연성과 제어권은 유지
새 하니스 및 샌드박스 기능은 Python에서 먼저 출시되며, TypeScript 지원은 향후 릴리스 예정
코드 모드(code mode) 와 서브에이전트(subagents) 기능을 Python 및 TypeScript 모두에 추가 작업 중
더 많은 샌드박스 제공업체, 통합, 개발자가 이미 사용하는 도구·시스템과의 연결 방법을 확대하여 에이전트 생태계 통합 지원 예정

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기