AI 에이전트 학습용 데스크톱 데이터를 수집하려고 만들었지만 범용 용도로도사용 가능한 오픈소스 레코더 ocap (Omnimodal CAPture)입니다.

OBS 같은 기존 녹화 도구들은 영상만 저장하거나 여러 종류의 데이터를 동기화하여 저장하지 못합니다. AI 학습에는 "사용자가 언제, 어떤 키를 눌렀고, 마우스를 어디로 움직였고, 어떤 창이 활성화되어 있었는지"까지 동기화된 데이터가 필요합니다. 이걸 해결하려고 만들었습니다.

특징:

  • 화면 영상 + 오디오 + 키보드/마우스 이벤트 + 윈도우 이벤트를 나노초 단위로 동기화하여 기록
  • 하드웨어 가속 인코딩 (H265/HEVC, NVIDIA GPU)
  • 명령어 하나로 녹화 시작/종료: ocap my-recording → Ctrl+C
  • 핵심 로직이 Python 파일 하나 (~400줄)에 담겨 있어 커스터마이징이 쉬움
  • GStreamer 기반이라 Linux/macOS 확장도 가능한 구조
  • 출력: .mkv (영상) + .mcap (이벤트 로그, 로보틱스에서 이미 검증된 MCAP 포맷)

설치:

conda install open-world-agents::gstreamer-bundle  
pip install ocap  

또는 릴리즈 페이지에서 zip 받아서 run.bat 실행하면 됩니다.

원래 데스크톱 데이터로 Embodied AI를 학습시키는 D2E 연구 프로젝트 (https://worv-ai.github.io/d2e/) 를 위해 개발했는데, 범용 데스크톱 녹화 도구로도 쓸 수 있어서 별도 패키지로 분리했습니다.

현재 Windows + NVIDIA GPU 환경만 지원하고, AMD/Intel GPU나 다른 OS 지원은 GStreamer 파이프라인만 바꾸면 되는 구조입니다.

깃헙: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/