4P by GN⁺ 5시간전 | ★ favorite | 댓글과 토론
  • OpenAI가 Agents SDK를 대폭 업데이트하여, 에이전트가 파일 검사·명령 실행·코드 편집·장기 작업을 제어된 샌드박스 환경에서 수행할 수 있는 표준화된 인프라 제공
  • 새 하니스(harness)는 구성 가능한 메모리, 샌드박스 인식 오케스트레이션, Codex 스타일 파일시스템 도구, MCP·skills·AGENTS.md·shell·apply patch 등 프론티어 에이전트 시스템의 주요 프리미티브를 통합
  • 네이티브 샌드박스 실행 지원으로 Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel 등 다양한 샌드박스 제공업체를 기본 지원하거나 자체 샌드박스 연결 가능
  • 하니스와 컴퓨팅 분리 아키텍처로 프롬프트 인젝션 방어, 스냅샷 기반 내구성 실행, 다중 컨테이너 병렬화 등 보안·확장성 확보
  • API 기반 표준 토큰 및 도구 사용 과금으로 모든 고객에게 일반 제공(GA)되며, TypeScript 지원과 코드 모드·서브에이전트 기능이 향후 추가 예정

기존 에이전트 시스템의 한계

  • 개발자가 유용한 에이전트를 구축하려면 최고의 모델뿐 아니라 파일 검사, 명령 실행, 코드 작성, 다단계 작업 유지를 지원하는 시스템이 필요
  • 기존 접근 방식의 트레이드오프
    • 모델 비종속 프레임워크는 유연하지만 프론티어 모델의 기능을 완전히 활용하지 못함
    • 모델 제공자 SDK는 모델에 가깝지만 하니스에 대한 가시성이 부족한 경우가 많음
    • 관리형 에이전트 API는 배포를 단순화하지만 에이전트 실행 위치와 민감 데이터 접근 방식을 제한

에이전트 루프를 위한 더 강력한 하니스

  • 이번 릴리스로 Agents SDK 하니스가 문서, 파일, 시스템을 다루는 에이전트에 더 강력한 기능 제공
  • 새로 통합된 주요 프리미티브
    • MCP를 통한 도구 사용
    • skills를 통한 프로그레시브 디스클로저
    • AGENTS.md를 통한 커스텀 인스트럭션
    • shell 도구를 통한 코드 실행
    • apply patch 도구를 통한 파일 편집
  • 하니스가 시간이 지남에 따라 새로운 에이전틱 패턴과 프리미티브를 계속 통합할 예정이므로, 개발자는 핵심 인프라 업데이트 대신 도메인별 로직에 집중 가능
  • 하니스는 프론티어 모델이 최적 성능을 발휘하는 방식에 맞춰 실행을 정렬함으로써, 특히 장기 실행 작업이나 다양한 도구·시스템 간 조율이 필요한 복잡한 작업에서 안정성과 성능 향상
  • 각 제품의 고유한 요구사항을 지원하도록 설계되어, 도구 사용·메모리·샌드박스 환경 등을 개발자의 기존 스택에 맞게 유연하게 조정 가능

네이티브 샌드박스 실행

  • 업데이트된 Agents SDK는 샌드박스 실행을 네이티브로 지원하여, 에이전트가 작업에 필요한 파일·도구·의존성을 갖춘 제어된 컴퓨터 환경에서 실행 가능
  • 많은 유용한 에이전트는 파일 읽기/쓰기, 의존성 설치, 코드 실행, 도구 안전 사용이 가능한 작업 공간(workspace) 이 필요하며, 네이티브 샌드박스 지원은 이를 별도로 구성할 필요 없이 기본 제공
  • 자체 샌드박스를 가져오거나 Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel 등 내장 지원 활용 가능
  • 환경을 여러 제공업체 간 이식 가능하게 만들기 위해 Manifest 추상화 도입
    • 로컬 파일 마운트, 출력 디렉터리 정의 가능
    • AWS S3, Google Cloud Storage, Azure Blob Storage, Cloudflare R2 등 스토리지 제공업체에서 데이터 가져오기 지원
  • 개발자에게 로컬 프로토타입에서 프로덕션 배포까지 일관된 환경 구성 방법 제공
  • 모델에게 입력 위치, 출력 위치, 장기 실행 작업 중 작업 정리 방법에 대한 예측 가능한 작업 공간 제공

보안·내구성·확장성을 위한 하니스-컴퓨팅 분리

  • 에이전트 시스템은 프롬프트 인젝션 및 데이터 유출 시도를 전제로 설계해야 하며, 하니스와 컴퓨팅 분리는 모델 생성 코드가 실행되는 환경에서 자격 증명을 격리하는 데 기여
  • 내구적 실행(durable execution) 지원
    • 에이전트 상태가 외부화되면 샌드박스 컨테이너 손실이 실행 손실로 이어지지 않음
    • 내장된 스냅샷팅과 리하이드레이션을 통해 원래 환경이 실패하거나 만료되면 새 컨테이너에서 마지막 체크포인트부터 상태 복원 및 계속 실행 가능
  • 확장성 강화
    • 에이전트 실행이 하나 또는 다수의 샌드박스를 사용할 수 있음
    • 필요할 때만 샌드박스 호출, 서브에이전트를 격리된 환경으로 라우팅 가능
    • 다중 컨테이너 병렬화로 더 빠른 실행 지원

Oscar Health 고객 사례

  • Oscar Health의 Staff Engineer & AI Tech Lead인 Rachael Burns에 따르면, 업데이트된 Agents SDK를 통해 이전 접근 방식으로는 충분히 안정적으로 처리할 수 없었던 임상 기록 워크플로우 자동화를 프로덕션 수준으로 구현
  • 단순한 메타데이터 추출이 아니라 길고 복잡한 기록에서 각 진료 경계(encounter boundary)를 정확히 이해하는 것이 핵심 차별점
  • 결과적으로 각 환자의 방문 상황을 더 빠르게 파악하여 환자 케어 및 경험 개선에 기여

가격 및 제공 방식

  • 새로운 Agents SDK 기능은 API를 통해 모든 고객에게 일반 제공(GA)
  • 표준 API 가격 정책 적용(토큰 및 도구 사용 기반 과금)

향후 계획

  • Agents SDK를 지속 발전시키며, 더 적은 커스텀 인프라로 더 강력한 에이전트를 프로덕션에 투입할 수 있도록 지원하되, 개발자의 유연성과 제어권은 유지
  • 새 하니스 및 샌드박스 기능은 Python에서 먼저 출시되며, TypeScript 지원은 향후 릴리스 예정
  • 코드 모드(code mode)서브에이전트(subagents) 기능을 Python 및 TypeScript 모두에 추가 작업 중
  • 더 많은 샌드박스 제공업체, 통합, 개발자가 이미 사용하는 도구·시스템과의 연결 방법을 확대하여 에이전트 생태계 통합 지원 예정