2P by princox 8시간전 | ★ favorite | 댓글 1개

Cursor가 자체 개발한 코딩 특화 AI 모델 Composer 2를 공개했습니다.

성능

모든 주요 벤치마크에서 전작 대비 큰 폭의 향상을 기록했습니다.

세 가지 테스트로 모델을 평가했습니다.

CursorBench — Cursor가 자체 제작한 실제 코딩 작업 벤치마크입니다. Composer 1 → 1.5 → 2로 오면서 38.0 → 44.2 → 61.3으로 올랐습니다. 1에서 2로 오는 동안 약 61% 성능이 향상됐고, 특히 1.5 → 2 구간에서 약 17점 급등해 이번 세대에서 가장 큰 도약이 있었습니다.

Terminal-Bench 2.0 — Laude Institute가 관리하는 터미널 기반 에이전트 평가입니다. 터미널에서 실제 명령어를 실행하며 작업을 완수하는 능력을 측정합니다. 40.0 → 47.9 → 61.7로, CursorBench와 거의 동일한 상승 패턴을 보입니다.

SWE-bench Multilingual — 실제 GitHub 이슈를 코드로 해결하는 유명한 소프트웨어 엔지니어링 벤치마크의 다국어 버전입니다. 56.9 → 65.9 → 73.7로 올랐습니다. 이미 Composer 1 시점부터 56점대로 다른 두 벤치마크보다 높게 시작했는데, 이는 코드 패치 작성 능력이 상대적으로 일찍부터 강했다는 의미입니다.

핵심 포인트

세 벤치마크 모두 1 → 1.5보다 1.5 → 2 구간의 상승폭이 훨씬 크며, 이것이 이번 발표의 핵심입니다. 지속 사전학습 + 강화학습 조합이 효과를 발휘한 구간이 바로 여기입니다. 73.7을 기록한 SWE-bench Multilingual 수치는 현재 공개된 모델들 중 최상위권에 해당합니다.

표준 버전: 입력 $0.50 / 출력 $2.50 (백만 토큰당)
빠른 버전(fast): 입력 $1.50 / 출력 $7.50 (백만 토큰당)

빠른 버전이 기본 옵션으로 제공될 예정이며, 동급 고속 모델 대비 낮은 가격이 강점입니다. 개인 플랜 사용자에게는 별도 사용량 풀로 넉넉한 기본 제공량이 포함됩니다.

코멘트

Cursor가 Claude, GPT 같은 외부 모델을 쓰는 레이어에서 벗어나 자체 모델을 직접 훈련하는 방향으로 본격 전환한 것이 인상적입니다. 특히 가격 대비 성능 포지셔닝이 공격적인데, 코딩 에이전트 시장에서 모델 레이어까지 수직 통합하려는 전략으로 읽힙니다. 기존에 Claude Sonnet이나 GPT-4o를 Cursor에서 쓰던 분들은 Composer 2로 전환해볼 만합니다.

Kimi k2모델에 강화학습 돌린 모델이었던 것으로 알려짐