Composer: 강화학습으로 구축한 고속 프런티어 모델
(cursor.com)- Cursor가 공개한 Composer는 소프트웨어 엔지니어링을 위한 고속 지능형 에이전트 모델로, 유사 모델 대비 4배 빠른 코드 생성 속도를 달성
- 실제 대규모 코드베이스 문제를 해결하도록 훈련되며, 검색·편집 도구를 활용해 다양한 난이도의 과제를 수행
- Mixture-of-Experts(MoE) 구조와 강화학습(RL) 을 결합해, 코드 편집·계획·답변 등 장기 문맥 이해와 생성을 지원
- Cursor Bench 평가를 통해 모델의 정확도뿐 아니라 코드베이스 일관성 및 엔지니어링 관행 준수까지 측정
- PyTorch·Ray 기반 비동기 RL 인프라와 MXFP8 저정밀 학습을 활용해 수천 개 GPU에서 효율적 학습 및 추론 속도 향상
Composer 개요
- Composer는 소프트웨어 엔지니어링 지능과 속도를 목표로 개발된 새로운 에이전트 모델
- 벤치마크에서 유사 모델 대비 4배 빠른 코드 생성 속도를 기록
- Cursor 내에서 대규모 코드베이스 문제 해결용 에이전트로 최적화됨
- 모델은 실제 환경에서 검색 및 편집 도구를 사용해 다양한 난이도의 문제를 해결하도록 훈련됨
- 이를 통해 고속 상호작용형 개발 경험을 제공
개발 배경
- Composer는 Cursor의 커스텀 코드 자동완성 모델(Cursor Tab) 개발 경험에서 비롯
- 개발자들이 지능적이면서도 반응이 빠른 모델을 선호함을 확인
- 초기 실험 모델 Cheetah를 기반으로, Composer는 이를 개선한 더 빠르고 똑똑한 버전으로 설계됨
- 목표는 개발 흐름을 유지하면서 즉각적 반응을 제공하는 모델 구축
모델 구조와 학습 방식
- Composer는 Mixture-of-Experts(MoE) 언어 모델로, 장기 문맥 이해 및 생성을 지원
-
강화학습(RL) 을 통해 다양한 개발 환경에서 전문화됨
- 각 학습 단계에서 문제 설명을 받고, 최적의 코드 수정·계획·답변을 생성
- 모델은 파일 읽기·편집, 터미널 명령 실행, 코드베이스 전역 의미 검색 등 도구를 활용
- RL 과정에서 모델은 복잡한 검색 수행, 린터 오류 수정, 단위 테스트 작성 및 실행 같은 유용한 행동을 스스로 학습
평가 및 벤치마크
-
Cursor Bench는 실제 엔지니어 요청과 최적 해답을 포함한 내부 평가 세트
- 모델의 정확도, 코드베이스 추상화 준수, 소프트웨어 엔지니어링 관행 일치도를 측정
- Composer는 “Fast Frontier” 등급 모델로, 효율적 추론을 목표로 하는 Haiku 4.5, Gemini Flash 2.5 등과 비교됨
- GPT-5, Sonnet 4.5 등 최상위 Frontier 모델보다 느리지만, 속도 대비 높은 효율성을 보유
인프라 및 시스템 설계
- 대규모 MoE 모델 학습을 위해 PyTorch와 Ray 기반 비동기 RL 인프라 구축
- MXFP8 MoE 커널, 전문가 병렬화, 하이브리드 샤딩 데이터 병렬화를 결합
- 수천 개 NVIDIA GPU에서 통신 비용을 최소화하며 학습 확장
- MXFP8 저정밀 학습을 통해 추론 속도 향상 및 후처리 양자화 불필요
- RL 중 모델은 Cursor Agent의 모든 도구를 호출 가능
- 코드 편집, 의미 검색, 문자열 grep, 터미널 명령 실행 등 지원
- 이를 위해 수십만 개의 클라우드 샌드박스 환경을 병렬 실행
- 기존 Background Agents 인프라를 확장해 버스트형 학습 부하를 처리
내부 활용과 배포
- Cursor 팀은 Composer를 자체 개발 업무에 적극 활용
- 다수의 엔지니어가 일상적 소프트웨어 개발에 Composer를 사용
- 이번 공개를 통해 다른 개발자들도 유용하게 활용할 수 있기를 기대
부록: 내부 벤치마크 분류
- Fast Frontier: 효율적 추론 모델 (Haiku 4.5, Gemini Flash 2.5 등)
- Best Open: 공개 가중치 모델 (Qwen Coder, GLM 4.6 등)
- Frontier 7/2025: 2025년 7월 기준 최고 모델
- Best Frontier: GPT-5, Sonnet 4.5 등 Composer보다 높은 성능 모델
- Tokens per Second 계산은 최신 Anthropic 토크나이저 기준으로 표준화됨
Hacker News 의견
-
투명성이 너무 부족하다는 생각임
모델 성능을 자체 벤치마크로만 공개하고, 그 데이터조차 비공개라 신뢰하기 어려움
RL 학습 이야기는 하지만, 사전학습(pre-training) 이나 파인튜닝 여부 등 핵심 정보는 전혀 없음
세부 내용을 공개하거나 외부에서 독립적으로 벤치마크하기 전까지는 모든 주장에 회의적임- 내부 벤치마크를 공개하지 않는 이유는 이해함
공개하면 그 데이터가 다른 LLM들의 학습셋에 포함되어 과학적 유효성이 사라질 수 있음
하지만 비공개라면 반대로 자신들에게 유리한 데이터만 골랐을 가능성도 있음
결국 해결하기 어려운 딜레마임 - 사실 중요한 건 실사용자 데이터라고 생각함
Cursor는 수천 건의 accept/reject 데이터를 실시간으로 수집하므로, 그게 최고의 피드백 루프임
벤치마크보다 실제 사용자 반응이 훨씬 유용하며, 이를 통해 모델을 빠르게 개선할 수 있음
최근에는 multi-agent + git tree 통합 기능도 추가되어, 사용자 행동을 학습 신호로 활용하는 구조임
이런 경쟁이 시장 전체 품질을 높이고, 사용 비용도 낮추는 선순환을 만든다고 봄
- 내부 벤치마크를 공개하지 않는 이유는 이해함
-
Cursor의 Tab 모델이 여전히 최고라고 느낌
관련 내용은 공식 블로그 글에 잘 정리되어 있음
이 접근법을 agentic coding 모델에도 적용할 수 있다면 정말 흥미로울 것 같음- 우리 팀도 Tab을 많이 사용함
이번 프로젝트의 동기 자체가 Tab 같은 에이전트를 만들자는 아이디어에서 출발했음 - Windsurfs를 써본 적 있는지 궁금함
- Tab 모델이 좋긴 하지만, 마치 말채찍을 더 잘 만드는 경쟁 같다는 생각도 있음
나는 Claude Code를 거의 상시 실행해두고 쓰는데, Tab은 모델이 완전히 막혔을 때만 개입함
그런 실패 상황이 점점 줄어드는 게 인상적임 - Tab 모델이 훌륭하지만, 현재 대화 중인 AI 채팅 세션의 맥락을 이해하지 못하는 점이 아쉬움
- 기능은 좋지만 단축키가 아쉬움
shift+tab 같은 걸로 바꿨으면 좋겠음
내가 직접 코드 작성할 때마다 AI와 들여쓰기 경쟁을 하는 기분이라 불편함
- 우리 팀도 Tab을 많이 사용함
-
나는 Cursor의 ML 연구자이며 이번 프로젝트에 참여했음
모델이나 블로그 포스트에 대한 피드백을 환영함- 시스템 설명이 인상적이었음
다만 Composer가 오픈 모델을 RL로 파인튜닝한 거라면, 왜 가중치를 비공개로 유지하는지 궁금함
약간의 성능 우위는 금방 사라지기 때문에, 오히려 오픈 전략이 개발자 신뢰를 얻는 데 유리할 것 같음
개인적으로는 폐쇄형 모델에는 흥미가 적음 - 정말 놀라웠음
예전엔 Cursor를 써보다가 포기했는데, 이번 Composer1은 GPT5 Codex보다 훨씬 빠르고 정확했음
속도와 품질이 모두 좋아서 다시 써볼 생각임 - 블로그의 첫 번째 그래프가 너무 모호했음
모델 그룹화 없이 개별 이름을 표시한 버전이 있으면 더 공정했을 것 같음 - 오늘 하루 Composer, Sonnet 4.5, Gemini 2.5 Pro를 함께 써봤는데, Composer의 속도와 품질 조합이 가장 만족스러웠음
계획 단계는 Claude로 하지만, 실행 단계에서는 Composer가 훨씬 효율적임 - 로그 그래프를 보면 프런티어 모델에 도달하려면 약 50% 정도 더 연산이 필요해 보이는데, 왜 거기서 학습을 멈췄는지 궁금함
- 시스템 설명이 인상적이었음
-
Sonnet 4.5 정도가 내가 감당할 수 있는 최저 품질선임
속도보다 중요한 건 원하는 출력을 얻기 위해 씨름하지 않아도 되는 것임
혹시 내가 잘못 이해했을 수도 있지만, 이 글에서 비교하는 모델들이 전부 Cursor 내부 모델인지 궁금함- Sonnet 4.5가 출시된 지 한 달밖에 안 됐는데 벌써 그걸 ‘최저선’으로 본다는 게 재밌음
- 사용자 유형이 두 가지라고 생각함
하나는 모델이 자율적으로 긴 작업을 처리하길 원하는 사람,
다른 하나는 모델과 상호작용하며 협업하길 원하는 사람임
후자의 경우 속도가 훨씬 중요하고, 전자는 지능이 더 중요함
나에게는 문맥 이해 부족이 더 큰 문제라서 상황에 따라 다름 - Sonnet 4.5가 훌륭하지만, Composer도 써봤는지 궁금함
- 나도 비슷함
Claude 외 모델을 쓰면 토큰 비용이 더 들고 효율이 떨어짐
Claude 4.5 Sonnet은 같은 작업을 절반 비용으로 해결해줌 - 비교를 꺼낸 이유는 Cursor가 속도 중심의 사용자 경험을 얼마나 진지하게 다루는지 보여주기 위함임
나는 정확도보다 빠른 피드백을 선호함
-
새 모델이 나와서 반갑지만, 그래프에 숫자나 모델명이 빠져 있어서 신뢰하기 어려움
- 각주에 모델 관련 설명이 있긴 함
학습 세부는 공개하기 어렵지만, RL이 잘 스케일링된다는 결과를 얻었다고 함
- 각주에 모델 관련 설명이 있긴 함
-
사람들은 Cursor에 비판적이지만, 나는 Copilot, Claude Code, Codex, Gemini CLI, Cline 등 다 써본 결과 Cursor의 완성도가 가장 높았음
속도와 안정성이 특히 뛰어나며, 진짜 제품처럼 느껴짐- 나도 Cursor를 썼지만 신뢰성 문제로 포기했음
요청이 30초 이상 멈추는 경우가 많았고, Claude Code는 훨씬 빠르고 안정적이었음
오늘 새 모델을 다시 써봤는데 Composer1은 빠르지만 여전히 연결 오류가 있었음 - 나도 여러 툴을 써봤지만 결국 Cursor로 돌아왔음
내가 원하는 걸 빠르게 구현하는 데는 Cursor가 최고임 - Cursor는 가끔 멈추긴 하지만, UI에서 쉽게 되돌리기가 가능해서 불편하지 않음
자동완성도 리팩터링 시 꽤 유용함 - 여러 대안을 써봤다고 하지만, 혹시 Zed는 안 써봤는지?
- Claude를 써보고도 Cursor를 더 선호한다는 게 흥미로움
- 나도 Cursor를 썼지만 신뢰성 문제로 포기했음
-
경쟁사 중 응답 완료 시간을 진지하게 다루는 곳은 Cursor뿐임
Cursor가 그 부분에서 완전히 앞섰음- 우리도 다양한 모델을 좋아하지만, 빠르고 똑똑한 균형점을 찾는 게 중요하다고 생각함 (Cursor 연구자)
-
새 시스템을 써봤는데 오히려 성능이 하락한 느낌이었음
기본적인 앱도 제대로 작동하지 않았고, CSS나 터미널 컨텍스트 처리도 실패함
속도도 점점 느려졌고, 결국 Sonnet으로 다시 돌아감
안정화 버전이 아니길 바람 -
나는 Cursor를 정말 좋아함
Copilot, Claude 등 여러 툴을 써봤지만 결국 다시 Cursor로 돌아옴
특히 Tab 자동완성이 리팩터링 작업에서 매우 정확함- 한 달 전 VS Code + Copilot로 돌아가봤지만 4일 만에 포기했음
느리고 제안 품질이 낮았음
Cursor는 훨씬 빠르고 제안이 유용함
다만 너무 빠르다 보니 가끔 불필요한 제안을 계속 띄우는 게 아쉬움
그래도 일시 중지(snooze) 기능이 있어서 해결 가능함
- 한 달 전 VS Code + Copilot로 돌아가봤지만 4일 만에 포기했음
-
Composer 1의 펠리컨이 자전거 타는 이미지가 있음
이미지 링크- 생각보다 훨씬 잘 나왔음