속도 수치도 인상적이지만, 개인적으로는 OpenAI API 호환, 도구 호출 파서, reasoning 분리 쪽이 더 눈에 들어오네요.

로컬 모델을 개발 도구나 백엔드 에이전트 흐름에 붙여보면 순수 추론 속도만큼이나 모델별 응답 포맷 차이, 깨진 tool call 복구, 긴 컨텍스트에서의 TTFT가 실제 사용성을 많이 좌우하더군요. 그런 면에서 “빠른 로컬 추론 엔진”보다 “에이전트 하네스에 안정적으로 붙는 로컬 엔진”에 가까워 보입니다.

벤치마크는 동일 조건에서 재현해봐야겠지만, Apple Silicon에서 이 정도 로컬 개발 루프가 가능해지면 프로토타입이나 내부 도구 실험 비용은 꽤 낮아질 것 같습니다. MHI처럼 모델-하네스 호환성을 따로 보려는 시도도 흥미롭네요.