한국 개발자가 만든 오픈소스 프로젝트 Ouroboros가
최근 공개된 "AI-assisted discrete-event simulation" 벤치마크에서 전체 1위를 기록했습니다.

특히 의미 있었던 점은, 같은 Claude Max 환경에서 실행되었음에도 Claude 자체의 plan mode보다 더 좋은 결과를 냈다는 점입니다.

이 벤치마크는 단순 코딩 능력을 보는 테스트가 아니라, AI 에이전트가 실제 시스템을 얼마나 잘 이해하고
모델링하며, 실행 가능한 시뮬레이션 결과물까지 만들어낼 수 있는지를 평가하는 고난도 과제였습니다.

과제는 광산 운송 시스템을 대상으로 했고, 대략 다음과 같은 능력을 요구했습니다.

  • 광산 트럭, 적재 지점, 하역 지점, 경로, 대기열 등 시스템 구조 이해
  • 현실의 복잡한 과정을 discrete-event simulation 모델로 추상화
  • 어떤 이벤트가 발생하고, 어떤 상태가 바뀌며, 어떤 지표를 측정할지 설계
  • 실제 실행 가능한 시뮬레이션 코드 구현
  • 병목, 처리량, 대기 시간 등 결과 해석
  • topology diagram, animation 등 사람이 이해하기 쉬운 산출물 생성

Ouroboros는 Claude Code 안에서 ooo workflow로 실행되었고,
제출물은 단순한 코드 구현을 넘어서 광산 트럭이 광석을 운반하는 애니메이션과 topology diagram까지 포함했습니다.

흥미로운 점은 실행 중 MCP server가 실패했음에도,
Ouroboros가 skills 기반 접근으로 fallback하여 좋은 결과를 냈다는 점입니다.
개인적으로는 이 부분이 특히 의미 있다고 생각합니다.
실제 환경에서 AI 워크플로우는 항상 이상적으로만 작동하지 않기 때문에,
실패했을 때 복구하고 다른 경로로 계속 진행하는 능력이 중요하기 때문입니다.

Ouroboros가 지향하는 방향은 단순히 “AI에게 코드를 쓰게 하는 것”이 아닙니다.

AI가 문제를 명확히 하고, 계획을 세우고, 실행하고, 실패에서 복구하고, 결과를 평가하며,
필요한 경우 다시 개선하는 워크플로우를 만듭니다.

이번 벤치마크는 그런 접근이 실제 복잡한 문제 해결에서도 의미가 있다는 좋은 검증이라고 생각합니다.

또 하나 흥미로웠던 점은, 단순히 많은 지침이나 큰 skill을 붙이는 방식이 항상 좋은 결과를 내지는 않았다는 것입니다.
이번 결과에서는 일부 fat skills 기반 접근(이를테면 superpowers)이 기본 plan mode보다도 낮은 성능을 보였고,
반대로 Ouroboros처럼 문제 정의, 계획, 실행, 평가, 복구를 구조화한 워크플로우가 더 좋은 결과를 냈습니다.

개인적으로는 “한국의 개발자가 만든 오픈소스 AI 워크플로우가
Anthropic의 기본 plan mode를 앞선 사례”라는 점에서 자랑스럽게 느끼고 있습니다.
다만 더 중요하게는, 앞으로 AI 에이전트가 실제 문제를 해결하기 위해
어떤 구조를 가져야 하는지에 대한 작은 실험 결과라고 보입니다.