Composer: 강화학습으로 구축한 고속 프런티어 모

▲

GN⁺ 6달전 | parent | ★ favorite | on: Composer: 강화학습으로 구축한 고속 프런티어 모델(cursor.com)

Hacker News 의견

투명성이 너무 부족하다는 생각임
모델 성능을 자체 벤치마크로만 공개하고, 그 데이터조차 비공개라 신뢰하기 어려움
RL 학습 이야기는 하지만, 사전학습(pre-training) 이나 파인튜닝 여부 등 핵심 정보는 전혀 없음
세부 내용을 공개하거나 외부에서 독립적으로 벤치마크하기 전까지는 모든 주장에 회의적임
- 내부 벤치마크를 공개하지 않는 이유는 이해함
  공개하면 그 데이터가 다른 LLM들의 학습셋에 포함되어 과학적 유효성이 사라질 수 있음
  하지만 비공개라면 반대로 자신들에게 유리한 데이터만 골랐을 가능성도 있음
  결국 해결하기 어려운 딜레마임
- 사실 중요한 건 실사용자 데이터라고 생각함
  Cursor는 수천 건의 accept/reject 데이터를 실시간으로 수집하므로, 그게 최고의 피드백 루프임
  벤치마크보다 실제 사용자 반응이 훨씬 유용하며, 이를 통해 모델을 빠르게 개선할 수 있음
  최근에는 multi-agent + git tree 통합 기능도 추가되어, 사용자 행동을 학습 신호로 활용하는 구조임
  이런 경쟁이 시장 전체 품질을 높이고, 사용 비용도 낮추는 선순환을 만든다고 봄
Cursor의 Tab 모델이 여전히 최고라고 느낌
관련 내용은 공식 블로그 글에 잘 정리되어 있음
이 접근법을 agentic coding 모델에도 적용할 수 있다면 정말 흥미로울 것 같음
- 우리 팀도 Tab을 많이 사용함
  이번 프로젝트의 동기 자체가 Tab 같은 에이전트를 만들자는 아이디어에서 출발했음
- Windsurfs를 써본 적 있는지 궁금함
- Tab 모델이 좋긴 하지만, 마치 말채찍을 더 잘 만드는 경쟁 같다는 생각도 있음
  나는 Claude Code를 거의 상시 실행해두고 쓰는데, Tab은 모델이 완전히 막혔을 때만 개입함
  그런 실패 상황이 점점 줄어드는 게 인상적임
- Tab 모델이 훌륭하지만, 현재 대화 중인 AI 채팅 세션의 맥락을 이해하지 못하는 점이 아쉬움
- 기능은 좋지만 단축키가 아쉬움
  shift+tab 같은 걸로 바꿨으면 좋겠음
  내가 직접 코드 작성할 때마다 AI와 들여쓰기 경쟁을 하는 기분이라 불편함
나는 Cursor의 ML 연구자이며 이번 프로젝트에 참여했음
모델이나 블로그 포스트에 대한 피드백을 환영함
- 시스템 설명이 인상적이었음
  다만 Composer가 오픈 모델을 RL로 파인튜닝한 거라면, 왜 가중치를 비공개로 유지하는지 궁금함
  약간의 성능 우위는 금방 사라지기 때문에, 오히려 오픈 전략이 개발자 신뢰를 얻는 데 유리할 것 같음
  개인적으로는 폐쇄형 모델에는 흥미가 적음
- 정말 놀라웠음
  예전엔 Cursor를 써보다가 포기했는데, 이번 Composer1은 GPT5 Codex보다 훨씬 빠르고 정확했음
  속도와 품질이 모두 좋아서 다시 써볼 생각임
- 블로그의 첫 번째 그래프가 너무 모호했음
  모델 그룹화 없이 개별 이름을 표시한 버전이 있으면 더 공정했을 것 같음
- 오늘 하루 Composer, Sonnet 4.5, Gemini 2.5 Pro를 함께 써봤는데, Composer의 속도와 품질 조합이 가장 만족스러웠음
  계획 단계는 Claude로 하지만, 실행 단계에서는 Composer가 훨씬 효율적임
- 로그 그래프를 보면 프런티어 모델에 도달하려면 약 50% 정도 더 연산이 필요해 보이는데, 왜 거기서 학습을 멈췄는지 궁금함
Sonnet 4.5 정도가 내가 감당할 수 있는 최저 품질선임
속도보다 중요한 건 원하는 출력을 얻기 위해 씨름하지 않아도 되는 것임
혹시 내가 잘못 이해했을 수도 있지만, 이 글에서 비교하는 모델들이 전부 Cursor 내부 모델인지 궁금함
- Sonnet 4.5가 출시된 지 한 달밖에 안 됐는데 벌써 그걸 ‘최저선’으로 본다는 게 재밌음
- 사용자 유형이 두 가지라고 생각함
  하나는 모델이 자율적으로 긴 작업을 처리하길 원하는 사람,
  다른 하나는 모델과 상호작용하며 협업하길 원하는 사람임
  후자의 경우 속도가 훨씬 중요하고, 전자는 지능이 더 중요함
  나에게는 문맥 이해 부족이 더 큰 문제라서 상황에 따라 다름
- Sonnet 4.5가 훌륭하지만, Composer도 써봤는지 궁금함
- 나도 비슷함
  Claude 외 모델을 쓰면 토큰 비용이 더 들고 효율이 떨어짐
  Claude 4.5 Sonnet은 같은 작업을 절반 비용으로 해결해줌
- 비교를 꺼낸 이유는 Cursor가 속도 중심의 사용자 경험을 얼마나 진지하게 다루는지 보여주기 위함임
  나는 정확도보다 빠른 피드백을 선호함
새 모델이 나와서 반갑지만, 그래프에 숫자나 모델명이 빠져 있어서 신뢰하기 어려움
- 각주에 모델 관련 설명이 있긴 함
  학습 세부는 공개하기 어렵지만, RL이 잘 스케일링된다는 결과를 얻었다고 함
사람들은 Cursor에 비판적이지만, 나는 Copilot, Claude Code, Codex, Gemini CLI, Cline 등 다 써본 결과 Cursor의 완성도가 가장 높았음
속도와 안정성이 특히 뛰어나며, 진짜 제품처럼 느껴짐
- 나도 Cursor를 썼지만 신뢰성 문제로 포기했음
  요청이 30초 이상 멈추는 경우가 많았고, Claude Code는 훨씬 빠르고 안정적이었음
  오늘 새 모델을 다시 써봤는데 Composer1은 빠르지만 여전히 연결 오류가 있었음
- 나도 여러 툴을 써봤지만 결국 Cursor로 돌아왔음
  내가 원하는 걸 빠르게 구현하는 데는 Cursor가 최고임
- Cursor는 가끔 멈추긴 하지만, UI에서 쉽게 되돌리기가 가능해서 불편하지 않음
  자동완성도 리팩터링 시 꽤 유용함
- 여러 대안을 써봤다고 하지만, 혹시 Zed는 안 써봤는지?
- Claude를 써보고도 Cursor를 더 선호한다는 게 흥미로움
경쟁사 중 응답 완료 시간을 진지하게 다루는 곳은 Cursor뿐임
Cursor가 그 부분에서 완전히 앞섰음
- 우리도 다양한 모델을 좋아하지만, 빠르고 똑똑한 균형점을 찾는 게 중요하다고 생각함 (Cursor 연구자)
새 시스템을 써봤는데 오히려 성능이 하락한 느낌이었음
기본적인 앱도 제대로 작동하지 않았고, CSS나 터미널 컨텍스트 처리도 실패함
속도도 점점 느려졌고, 결국 Sonnet으로 다시 돌아감
안정화 버전이 아니길 바람
나는 Cursor를 정말 좋아함
Copilot, Claude 등 여러 툴을 써봤지만 결국 다시 Cursor로 돌아옴
특히 Tab 자동완성이 리팩터링 작업에서 매우 정확함
- 한 달 전 VS Code + Copilot로 돌아가봤지만 4일 만에 포기했음
  느리고 제안 품질이 낮았음
  Cursor는 훨씬 빠르고 제안이 유용함
  다만 너무 빠르다 보니 가끔 불필요한 제안을 계속 띄우는 게 아쉬움
  그래도 일시 중지(snooze) 기능이 있어서 해결 가능함
Composer 1의 펠리컨이 자전거 타는 이미지가 있음
이미지 링크
- 생각보다 훨씬 잘 나왔음