Composer: 강화학습으로 구축한 고속 프런티어 모델

(cursor.com)

2P by GN⁺ 2일전 | ★ favorite | 댓글 1개

Cursor가 공개한 Composer는 소프트웨어 엔지니어링을 위한 고속 지능형 에이전트 모델로, 유사 모델 대비 4배 빠른 코드 생성 속도를 달성
실제 대규모 코드베이스 문제를 해결하도록 훈련되며, 검색·편집 도구를 활용해 다양한 난이도의 과제를 수행
Mixture-of-Experts(MoE) 구조와 강화학습(RL) 을 결합해, 코드 편집·계획·답변 등 장기 문맥 이해와 생성을 지원
Cursor Bench 평가를 통해 모델의 정확도뿐 아니라 코드베이스 일관성 및 엔지니어링 관행 준수까지 측정
PyTorch·Ray 기반 비동기 RL 인프라와 MXFP8 저정밀 학습을 활용해 수천 개 GPU에서 효율적 학습 및 추론 속도 향상

Composer 개요

Composer는 소프트웨어 엔지니어링 지능과 속도를 목표로 개발된 새로운 에이전트 모델
- 벤치마크에서 유사 모델 대비 4배 빠른 코드 생성 속도를 기록
- Cursor 내에서 대규모 코드베이스 문제 해결용 에이전트로 최적화됨
모델은 실제 환경에서 검색 및 편집 도구를 사용해 다양한 난이도의 문제를 해결하도록 훈련됨
- 이를 통해 고속 상호작용형 개발 경험을 제공

개발 배경

Composer는 Cursor의 커스텀 코드 자동완성 모델(Cursor Tab) 개발 경험에서 비롯
- 개발자들이 지능적이면서도 반응이 빠른 모델을 선호함을 확인
초기 실험 모델 Cheetah를 기반으로, Composer는 이를 개선한 더 빠르고 똑똑한 버전으로 설계됨
- 목표는 개발 흐름을 유지하면서 즉각적 반응을 제공하는 모델 구축

모델 구조와 학습 방식

Composer는 Mixture-of-Experts(MoE) 언어 모델로, 장기 문맥 이해 및 생성을 지원
강화학습(RL) 을 통해 다양한 개발 환경에서 전문화됨
- 각 학습 단계에서 문제 설명을 받고, 최적의 코드 수정·계획·답변을 생성
- 모델은 파일 읽기·편집, 터미널 명령 실행, 코드베이스 전역 의미 검색 등 도구를 활용
RL 과정에서 모델은 복잡한 검색 수행, 린터 오류 수정, 단위 테스트 작성 및 실행 같은 유용한 행동을 스스로 학습

평가 및 벤치마크

Cursor Bench는 실제 엔지니어 요청과 최적 해답을 포함한 내부 평가 세트
- 모델의 정확도, 코드베이스 추상화 준수, 소프트웨어 엔지니어링 관행 일치도를 측정
Composer는 “Fast Frontier” 등급 모델로, 효율적 추론을 목표로 하는 Haiku 4.5, Gemini Flash 2.5 등과 비교됨
- GPT-5, Sonnet 4.5 등 최상위 Frontier 모델보다 느리지만, 속도 대비 높은 효율성을 보유

인프라 및 시스템 설계

대규모 MoE 모델 학습을 위해 PyTorch와 Ray 기반 비동기 RL 인프라 구축
- MXFP8 MoE 커널, 전문가 병렬화, 하이브리드 샤딩 데이터 병렬화를 결합
- 수천 개 NVIDIA GPU에서 통신 비용을 최소화하며 학습 확장
MXFP8 저정밀 학습을 통해 추론 속도 향상 및 후처리 양자화 불필요
RL 중 모델은 Cursor Agent의 모든 도구를 호출 가능
- 코드 편집, 의미 검색, 문자열 grep, 터미널 명령 실행 등 지원
- 이를 위해 수십만 개의 클라우드 샌드박스 환경을 병렬 실행
- 기존 Background Agents 인프라를 확장해 버스트형 학습 부하를 처리

내부 활용과 배포

Cursor 팀은 Composer를 자체 개발 업무에 적극 활용
- 다수의 엔지니어가 일상적 소프트웨어 개발에 Composer를 사용
이번 공개를 통해 다른 개발자들도 유용하게 활용할 수 있기를 기대

부록: 내부 벤치마크 분류

Fast Frontier: 효율적 추론 모델 (Haiku 4.5, Gemini Flash 2.5 등)
Best Open: 공개 가중치 모델 (Qwen Coder, GLM 4.6 등)
Frontier 7/2025: 2025년 7월 기준 최고 모델
Best Frontier: GPT-5, Sonnet 4.5 등 Composer보다 높은 성능 모델
Tokens per Second 계산은 최신 Anthropic 토크나이저 기준으로 표준화됨

▲

GN⁺ 2일전 [-]

Hacker News 의견

투명성이 너무 부족하다는 생각임
모델 성능을 자체 벤치마크로만 공개하고, 그 데이터조차 비공개라 신뢰하기 어려움
RL 학습 이야기는 하지만, 사전학습(pre-training) 이나 파인튜닝 여부 등 핵심 정보는 전혀 없음
세부 내용을 공개하거나 외부에서 독립적으로 벤치마크하기 전까지는 모든 주장에 회의적임
- 내부 벤치마크를 공개하지 않는 이유는 이해함
  공개하면 그 데이터가 다른 LLM들의 학습셋에 포함되어 과학적 유효성이 사라질 수 있음
  하지만 비공개라면 반대로 자신들에게 유리한 데이터만 골랐을 가능성도 있음
  결국 해결하기 어려운 딜레마임
- 사실 중요한 건 실사용자 데이터라고 생각함
  Cursor는 수천 건의 accept/reject 데이터를 실시간으로 수집하므로, 그게 최고의 피드백 루프임
  벤치마크보다 실제 사용자 반응이 훨씬 유용하며, 이를 통해 모델을 빠르게 개선할 수 있음
  최근에는 multi-agent + git tree 통합 기능도 추가되어, 사용자 행동을 학습 신호로 활용하는 구조임
  이런 경쟁이 시장 전체 품질을 높이고, 사용 비용도 낮추는 선순환을 만든다고 봄
Cursor의 Tab 모델이 여전히 최고라고 느낌
관련 내용은 공식 블로그 글에 잘 정리되어 있음
이 접근법을 agentic coding 모델에도 적용할 수 있다면 정말 흥미로울 것 같음
- 우리 팀도 Tab을 많이 사용함
  이번 프로젝트의 동기 자체가 Tab 같은 에이전트를 만들자는 아이디어에서 출발했음
- Windsurfs를 써본 적 있는지 궁금함
- Tab 모델이 좋긴 하지만, 마치 말채찍을 더 잘 만드는 경쟁 같다는 생각도 있음
  나는 Claude Code를 거의 상시 실행해두고 쓰는데, Tab은 모델이 완전히 막혔을 때만 개입함
  그런 실패 상황이 점점 줄어드는 게 인상적임
- Tab 모델이 훌륭하지만, 현재 대화 중인 AI 채팅 세션의 맥락을 이해하지 못하는 점이 아쉬움
- 기능은 좋지만 단축키가 아쉬움
  shift+tab 같은 걸로 바꿨으면 좋겠음
  내가 직접 코드 작성할 때마다 AI와 들여쓰기 경쟁을 하는 기분이라 불편함
나는 Cursor의 ML 연구자이며 이번 프로젝트에 참여했음
모델이나 블로그 포스트에 대한 피드백을 환영함
- 시스템 설명이 인상적이었음
  다만 Composer가 오픈 모델을 RL로 파인튜닝한 거라면, 왜 가중치를 비공개로 유지하는지 궁금함
  약간의 성능 우위는 금방 사라지기 때문에, 오히려 오픈 전략이 개발자 신뢰를 얻는 데 유리할 것 같음
  개인적으로는 폐쇄형 모델에는 흥미가 적음
- 정말 놀라웠음
  예전엔 Cursor를 써보다가 포기했는데, 이번 Composer1은 GPT5 Codex보다 훨씬 빠르고 정확했음
  속도와 품질이 모두 좋아서 다시 써볼 생각임
- 블로그의 첫 번째 그래프가 너무 모호했음
  모델 그룹화 없이 개별 이름을 표시한 버전이 있으면 더 공정했을 것 같음
- 오늘 하루 Composer, Sonnet 4.5, Gemini 2.5 Pro를 함께 써봤는데, Composer의 속도와 품질 조합이 가장 만족스러웠음
  계획 단계는 Claude로 하지만, 실행 단계에서는 Composer가 훨씬 효율적임
- 로그 그래프를 보면 프런티어 모델에 도달하려면 약 50% 정도 더 연산이 필요해 보이는데, 왜 거기서 학습을 멈췄는지 궁금함
Sonnet 4.5 정도가 내가 감당할 수 있는 최저 품질선임
속도보다 중요한 건 원하는 출력을 얻기 위해 씨름하지 않아도 되는 것임
혹시 내가 잘못 이해했을 수도 있지만, 이 글에서 비교하는 모델들이 전부 Cursor 내부 모델인지 궁금함
- Sonnet 4.5가 출시된 지 한 달밖에 안 됐는데 벌써 그걸 ‘최저선’으로 본다는 게 재밌음
- 사용자 유형이 두 가지라고 생각함
  하나는 모델이 자율적으로 긴 작업을 처리하길 원하는 사람,
  다른 하나는 모델과 상호작용하며 협업하길 원하는 사람임
  후자의 경우 속도가 훨씬 중요하고, 전자는 지능이 더 중요함
  나에게는 문맥 이해 부족이 더 큰 문제라서 상황에 따라 다름
- Sonnet 4.5가 훌륭하지만, Composer도 써봤는지 궁금함
- 나도 비슷함
  Claude 외 모델을 쓰면 토큰 비용이 더 들고 효율이 떨어짐
  Claude 4.5 Sonnet은 같은 작업을 절반 비용으로 해결해줌
- 비교를 꺼낸 이유는 Cursor가 속도 중심의 사용자 경험을 얼마나 진지하게 다루는지 보여주기 위함임
  나는 정확도보다 빠른 피드백을 선호함
새 모델이 나와서 반갑지만, 그래프에 숫자나 모델명이 빠져 있어서 신뢰하기 어려움
- 각주에 모델 관련 설명이 있긴 함
  학습 세부는 공개하기 어렵지만, RL이 잘 스케일링된다는 결과를 얻었다고 함
사람들은 Cursor에 비판적이지만, 나는 Copilot, Claude Code, Codex, Gemini CLI, Cline 등 다 써본 결과 Cursor의 완성도가 가장 높았음
속도와 안정성이 특히 뛰어나며, 진짜 제품처럼 느껴짐
- 나도 Cursor를 썼지만 신뢰성 문제로 포기했음
  요청이 30초 이상 멈추는 경우가 많았고, Claude Code는 훨씬 빠르고 안정적이었음
  오늘 새 모델을 다시 써봤는데 Composer1은 빠르지만 여전히 연결 오류가 있었음
- 나도 여러 툴을 써봤지만 결국 Cursor로 돌아왔음
  내가 원하는 걸 빠르게 구현하는 데는 Cursor가 최고임
- Cursor는 가끔 멈추긴 하지만, UI에서 쉽게 되돌리기가 가능해서 불편하지 않음
  자동완성도 리팩터링 시 꽤 유용함
- 여러 대안을 써봤다고 하지만, 혹시 Zed는 안 써봤는지?
- Claude를 써보고도 Cursor를 더 선호한다는 게 흥미로움
경쟁사 중 응답 완료 시간을 진지하게 다루는 곳은 Cursor뿐임
Cursor가 그 부분에서 완전히 앞섰음
- 우리도 다양한 모델을 좋아하지만, 빠르고 똑똑한 균형점을 찾는 게 중요하다고 생각함 (Cursor 연구자)
새 시스템을 써봤는데 오히려 성능이 하락한 느낌이었음
기본적인 앱도 제대로 작동하지 않았고, CSS나 터미널 컨텍스트 처리도 실패함
속도도 점점 느려졌고, 결국 Sonnet으로 다시 돌아감
안정화 버전이 아니길 바람
나는 Cursor를 정말 좋아함
Copilot, Claude 등 여러 툴을 써봤지만 결국 다시 Cursor로 돌아옴
특히 Tab 자동완성이 리팩터링 작업에서 매우 정확함
- 한 달 전 VS Code + Copilot로 돌아가봤지만 4일 만에 포기했음
  느리고 제안 품질이 낮았음
  Cursor는 훨씬 빠르고 제안이 유용함
  다만 너무 빠르다 보니 가끔 불필요한 제안을 계속 띄우는 게 아쉬움
  그래도 일시 중지(snooze) 기능이 있어서 해결 가능함
Composer 1의 펠리컨이 자전거 타는 이미지가 있음
이미지 링크
- 생각보다 훨씬 잘 나왔음

답변달기