3P by GN⁺ 2일전 | ★ favorite | 댓글 5개
  • Cursor는 ‘자율 코딩 에이전트’가 수주간 작동하는 실험을 진행하며, 인간 팀이 수개월 걸리는 프로젝트를 자동화할 수 있는 지를 탐구했다고 발표함
  • 이 시스템을 검증하기 위해 ‘웹 브라우저를 처음부터 만드는’ 목표를 설정하고, 에이전트들이 약 일주일간 100만 줄 이상의 코드를 작성했다고 주장
  • 그러나 공개된 GitHub 저장소(fastrender) 는 다수의 컴파일 오류와 CI 실패를 보이며, 실행 가능한 브라우저가 아님이 확인됨
  • Cursor는 작동 여부나 재현 가능한 데모, 빌드 가능한 커밋을 제시하지 않았으며, 실험 결과의 구체적 성공 근거도 없음
  • 그럼에도 불구하고 Cursor는 “에이전트가 대형 프로젝트에서 의미 있는 진전을 이뤘다” 고 표현해, 실제 성능 검증 없이 성공적 인상을 남김

Cursor의 블로그 실험 개요

  • 2026년 1월 14일 Cursor는 Scaling long-running autonomous coding 이라는 블로그 글을 게시
    • 목표는 “인간 팀이 수개월 걸리는 프로젝트를 자율 코딩 에이전트로 얼마나 멀리 확장할 수 있는가”를 탐구하는 것
  • 여러 접근법을 시도한 뒤, “조정 문제를 해결하고 단일 에이전트 없이 대규모 프로젝트로 확장할 수 있는” 시스템에 도달했다고 설명
  • 검증을 위해 ‘웹 브라우저를 처음부터 만드는’ 실험을 수행, 에이전트들이 약 일주일간 1,000개 파일에 걸쳐 100만 줄 이상의 코드를 작성했다고 밝힘

실험 결과의 불명확성

  • Cursor는 “새로운 에이전트가 코드베이스를 이해하고 의미 있는 진전을 이뤘다”, “수백 명의 워커가 동시에 같은 브랜치에 푸시했다”고 주장
    • 그러나 브라우저가 실제로 작동하는지 여부는 명시하지 않음
  • 게시글에는 스크린샷 영상이 포함되어 있으나, 실행 가능한 데모나 구체적 결과 설명은 없음
  • “브라우저를 처음부터 만드는 것은 매우 어렵다”는 문구 외에 작동 증거는 제시되지 않음

코드베이스 검증 결과

  • 저장소를 직접 빌드하면 ‘fastrender’ 라이브러리 컴파일 실패(34개 오류, 94개 경고) 가 발생
  • 최근 GitHub Actions 실행 결과에서도 워크플로 오류와 다수의 컴파일 실패가 확인됨
    • 최근 100개의 커밋 중 정상적으로 빌드된 커밋은 하나도 없음
  • 코드 내부는 의도나 구조가 없는 ‘AI slop’ 수준의 산출물이라고 평가함
    • cargo buildcargo check 명령조차 실행되지 않은 것으로 보임
    • 관련 이슈 #98도 현재 열려 있음

재현성과 신뢰성 문제

  • Cursor의 블로그는 실행 방법, 기대 결과, 작동 방식에 대한 설명이 전혀 없음
  • 재현 가능한 데모, 빌드 지침, 검증된 커밋(tag/release/commit) 이 제공되지 않음
  • 그럼에도 불구하고 글의 구성과 표현은 “작동하는 프로토타입” 처럼 보이게 함
  • Cursor는 “작동한다”고 명시하지 않았으므로 허위 진술은 아니지만, 성공을 암시하는 인상을 남김

결론 및 평가

  • Cursor는 “프로덕션 수준 브라우저”라고 주장하지 않았으나, ‘의미 있는 진전’과 ‘브라우저 구축’ 이라는 표현으로 성공적 실험처럼 보이게 함
  • 그러나 작동 증거, 빌드 가능한 코드, 재현 가능한 결과가 전혀 없음
  • “수백 명의 에이전트가 협업해 대형 프로젝트에서 진전을 이뤘다”는 주장은 어떠한 증거도 없는 주장
    • 최소한의 기준인 “컴파일 가능하고 단순 HTML 파일을 렌더링할 수 있는 수준” 조차 충족하지 못함
  • 결과적으로 Cursor의 실험은 자율 코딩 확장의 가능성보다는, 대규모 코드 생성의 한계를 드러낸 사례일뿐

사실 개발자들 아직 못짜른단걸 성공적으로 보여줬단거임~

성공적 결과 = 아직 우리 못짜른다고 경영진놈들아

Hacker News 의견들
  • 이번 주 실험이 결국 Servo(Rust 기반 브라우저)의 비작동 래퍼(wrapper) 수준이었다는 지적이 가장 위에 올라와야 함
    관련 댓글은 여기에 있음

    • 누군가 인기 오픈소스 프로젝트를 AI로 재작성해본 적 있는지 궁금함
      최신 LLM이라면 라이선스 세탁이나 의존성 표절에도 꽤 효과적일 수 있을 것 같음. 새로운 벤치마크로 흥미로울 듯함
    • 실제로 누군가 컴파일에 성공했다는 트윗을 봤음
    • 부정적 결과도 가치가 있음. 의도적으로 공개하면 존경스럽고, 실수로 드러나면 웃김
      오늘의 엔터테인먼트를 제공한 Cursor에게 건배함
    • 처음엔 스크린샷 보고 잠깐 내 일자리가 위험하다고 느꼈음
      그런데 엔진도 없고 완전히 깨진 상태라니, Cursor는 정말 망신감
  • Cursor의 공식 블로그 글은 꽤 보수적인 어조로 쓰였지만,
    트위터에서는 “GPT-5.2로 브라우저를 만들었다”는 식으로 과장된 인상을 줬음
    실제로는 수천 개의 에이전트를 분리해 수주간 커밋을 쌓게 했지만, 결과물은 아직 작동하지 않음

    • “머지 충돌을 해결했다”는 표현은 별 의미 없음. ‘ours’나 ‘theirs’ 전략만 써도 항상 해결 가능함
    • 그렇다면 누군가는 실제로 실행에 성공했을까? 스크린샷은 어디서 나온 걸까? 코드엔 오류가 너무 많음
    • 링크 내용을 보면 브라우저가 작동한 것처럼 보이는데, 그게 어떻게 “보수적”이라는 건지 궁금함
  • 나는 직접 확인해보려고 마지막 100개의 커밋에 대해 cargo check를 돌려봤음
    결과는 전부 실패였음. 결과 로그 참고

    • 지금은 컴파일이 된다는 새 댓글이 있음
    • 사실 스크린샷이 조작된 것일 수도 있음. Occam의 면도날로 보면 그게 가장 단순한 설명임
  • 이런 홍보는 결국 펀드레이징 전략의 일환으로 보임
    이전에도 내부 모델이 코드를 얼마나 작성했는지 등 모호한 포스트를 여러 번 올렸음
    실질적인 내용이 없다는 뜻은 아니지만, 결과를 공개적으로 공유하지 않는 점은 아쉬움

    • 다른 모델 제공자들과 달리 벤치마크를 공개하지 않는 점이 늘 불만이었음
      Cursor는 한때 화제였지만, 지금은 터미널 기반 에이전트가 대세임
      우리 회사도 Cursor 계약을 종료하고 Claude Code로 바꾸려는 중임
      아마 이번 브라우저 프로젝트는 다시 주목받기 위한 시도일 것임
    • 이런 식의 과장은 결국 시장가치 부풀리기일 뿐임. 정당화될 수 없음
    • 요즘은 모든 LLM 회사가 진실보다 ‘분위기 코드(vibe-coded)’ 마케팅에 의존함
      GPT-5 발표 때도 비슷했음. 실질적 발전은 둔화되고 있음
    • 예전엔 이런 과장이 싫었지만, 이제는 세상의 현실로 받아들이게 됨
      결국 신뢰보다는 검증이 답임
  • Cursor는 비슷한 실험으로 Excel 클론도 만들고 있음
    GitHub 저장소에 따르면
    16만 번의 워크플로 중 247번만 성공했고, 대부분은 예산 초과로 실패함
    에이전트들은 그런 제약엔 전혀 신경 쓰지 않음

  • 최신 커밋은 이제 빌드와 실행이 가능함 (적어도 Mac에서는)
    하지만 여전히 3백만 줄짜리 엉망 코드
    Cursor 홍보 영상에 나온 페이지는 렌더링되지 않음. 아마 다른 빌드를 쓴 듯함

    • cargo check는 통과하지만, git log를 보면 뭔가 수상함
      에이전트가 아니라 사람이 직접 수정한 흔적이 있음
      커밋 로그 분석 참고
  • 원글은 단순히 클릭 유도용 헤드라인이었다고 생각함
    “수천 개의 AI 에이전트가 브라우저를 만들었다”는 문구는 너무 자극적임

    • 이제 누군가 “AI가 브라우저를 만들었다”고 말할 때 이 사례를 링크할 수 있게 됨
    • 실제로 작동하지 않는 프로젝트들이 빠르게 뉴스 사이클을 돌고 있음
      “가짜 뉴스”라는 말이 정치적으로 오염된 게 아쉬움. 이 분야엔 딱 맞는 표현임
  • Cursor CEO는 “Rust로 렌더링 엔진과 JS VM을 처음부터 만들었다”고 주장했지만,
    실제 의존성 목록을 보면
    html5ever, cssparser, rquickjs 등 Servo 기반 라이브러리를 그대로 사용했음
    결국 Servo를 감싼 수준이며, 컴파일조차 안 됨

    • 왜 굳이 CSS와 JS를 직접 구현했다고 주장했는지 이해가 안 됨
      대부분의 사람은 코드만 봐도 바로 알 텐데, 아마도 대중은 확인하지 않을 것이라 생각한 듯함
      이런 식으로 잘못된 인식이 퍼지고, 나중에 정정돼도 아무도 신경 쓰지 않음
    • 실제로는 Servo의 HTML/CSS 파서, QuickJS, resvg, egui, wgpu 등
      기존 라이브러리로 구성되어 있음. 그게 3M 라인이라니 웃김
    • selectors, taffy도 포함되어 있고, 일부는 구버전 의존성을 사용 중임
    • JS 엔진은 개인 프로젝트를 vendor 폴더에 복사한 것일 뿐임
      관련 내용은 여기 참고
    • 레이아웃 코드는 Servo의 것을 쓴 건지, Cursor가 직접 쓴 건지 궁금함
      그 부분이 브라우저에서 가장 어려운 영역임
  • 이런 마케팅 접근법은 오히려 자충수라고 생각함
    Cursor의 디자인과 UX는 훌륭하지만, 깊이 있는 작업에서는 버그가 너무 많음
    Claude 모델 추가로 조금 나아졌지만 여전히 Antigravity보다 못함
    게다가 $20 구독 한도도 금방 소진됨. 모델이 10배 좋아지고 10배 싸질 가능성은 낮음

    • 여러 AI 회사의 버그투성이 앱을 써보며, 진짜 업무에는 여전히 인간의 기술이 필요하다는 걸 느낌
      OpenAI의 비즈니스 모델이 광고 중심으로 변하는 걸 보면,
      구글이 이 기술을 더 현실적으로 이해하고 있었다는 생각이 듦
  • 이런 이야기들은 결국 ‘삽을 파는 사람들’ 을 위한 것임
    잘 모르는 CEO가 이런 뉴스에 속아 실제 인력을 해고할 수도 있음