Cursor의 최신 ‘브라우저 실험’은 증거 없이 성공을 암시함
(embedding-shapes.github.io)- Cursor는 ‘자율 코딩 에이전트’가 수주간 작동하는 실험을 진행하며, 인간 팀이 수개월 걸리는 프로젝트를 자동화할 수 있는 지를 탐구했다고 발표함
- 이 시스템을 검증하기 위해 ‘웹 브라우저를 처음부터 만드는’ 목표를 설정하고, 에이전트들이 약 일주일간 100만 줄 이상의 코드를 작성했다고 주장
- 그러나 공개된 GitHub 저장소(fastrender) 는 다수의 컴파일 오류와 CI 실패를 보이며, 실행 가능한 브라우저가 아님이 확인됨
- Cursor는 작동 여부나 재현 가능한 데모, 빌드 가능한 커밋을 제시하지 않았으며, 실험 결과의 구체적 성공 근거도 없음
- 그럼에도 불구하고 Cursor는 “에이전트가 대형 프로젝트에서 의미 있는 진전을 이뤘다” 고 표현해, 실제 성능 검증 없이 성공적 인상을 남김
Cursor의 블로그 실험 개요
- 2026년 1월 14일 Cursor는 “Scaling long-running autonomous coding” 이라는 블로그 글을 게시
- 목표는 “인간 팀이 수개월 걸리는 프로젝트를 자율 코딩 에이전트로 얼마나 멀리 확장할 수 있는가”를 탐구하는 것
- 여러 접근법을 시도한 뒤, “조정 문제를 해결하고 단일 에이전트 없이 대규모 프로젝트로 확장할 수 있는” 시스템에 도달했다고 설명
- 검증을 위해 ‘웹 브라우저를 처음부터 만드는’ 실험을 수행, 에이전트들이 약 일주일간 1,000개 파일에 걸쳐 100만 줄 이상의 코드를 작성했다고 밝힘
- 소스코드는 GitHub 저장소 wilsonzlin/fastrender에 공개
실험 결과의 불명확성
- Cursor는 “새로운 에이전트가 코드베이스를 이해하고 의미 있는 진전을 이뤘다”, “수백 명의 워커가 동시에 같은 브랜치에 푸시했다”고 주장
- 그러나 브라우저가 실제로 작동하는지 여부는 명시하지 않음
- 게시글에는 스크린샷 영상이 포함되어 있으나, 실행 가능한 데모나 구체적 결과 설명은 없음
- “브라우저를 처음부터 만드는 것은 매우 어렵다”는 문구 외에 작동 증거는 제시되지 않음
코드베이스 검증 결과
- 저장소를 직접 빌드하면 ‘fastrender’ 라이브러리 컴파일 실패(34개 오류, 94개 경고) 가 발생
- 최근 GitHub Actions 실행 결과에서도 워크플로 오류와 다수의 컴파일 실패가 확인됨
- 최근 100개의 커밋 중 정상적으로 빌드된 커밋은 하나도 없음
- 코드 내부는 의도나 구조가 없는 ‘AI slop’ 수준의 산출물이라고 평가함
-
cargo build나cargo check명령조차 실행되지 않은 것으로 보임 - 관련 이슈 #98도 현재 열려 있음
-
재현성과 신뢰성 문제
- Cursor의 블로그는 실행 방법, 기대 결과, 작동 방식에 대한 설명이 전혀 없음
- 재현 가능한 데모, 빌드 지침, 검증된 커밋(tag/release/commit) 이 제공되지 않음
- 그럼에도 불구하고 글의 구성과 표현은 “작동하는 프로토타입” 처럼 보이게 함
- Cursor는 “작동한다”고 명시하지 않았으므로 허위 진술은 아니지만, 성공을 암시하는 인상을 남김
결론 및 평가
- Cursor는 “프로덕션 수준 브라우저”라고 주장하지 않았으나, ‘의미 있는 진전’과 ‘브라우저 구축’ 이라는 표현으로 성공적 실험처럼 보이게 함
- 그러나 작동 증거, 빌드 가능한 코드, 재현 가능한 결과가 전혀 없음
- “수백 명의 에이전트가 협업해 대형 프로젝트에서 진전을 이뤘다”는 주장은 어떠한 증거도 없는 주장임
- 최소한의 기준인 “컴파일 가능하고 단순 HTML 파일을 렌더링할 수 있는 수준” 조차 충족하지 못함
- 결과적으로 Cursor의 실험은 자율 코딩 확장의 가능성보다는, 대규모 코드 생성의 한계를 드러낸 사례일뿐
Hacker News 의견들
-
이번 주 실험이 결국 Servo(Rust 기반 브라우저)의 비작동 래퍼(wrapper) 수준이었다는 지적이 가장 위에 올라와야 함
관련 댓글은 여기에 있음- 누군가 인기 오픈소스 프로젝트를 AI로 재작성해본 적 있는지 궁금함
최신 LLM이라면 라이선스 세탁이나 의존성 표절에도 꽤 효과적일 수 있을 것 같음. 새로운 벤치마크로 흥미로울 듯함 - 실제로 누군가 컴파일에 성공했다는 트윗을 봤음
-
부정적 결과도 가치가 있음. 의도적으로 공개하면 존경스럽고, 실수로 드러나면 웃김
오늘의 엔터테인먼트를 제공한 Cursor에게 건배함 - 처음엔 스크린샷 보고 잠깐 내 일자리가 위험하다고 느꼈음
그런데 엔진도 없고 완전히 깨진 상태라니, Cursor는 정말 망신감임
- 누군가 인기 오픈소스 프로젝트를 AI로 재작성해본 적 있는지 궁금함
-
Cursor의 공식 블로그 글은 꽤 보수적인 어조로 쓰였지만,
트위터에서는 “GPT-5.2로 브라우저를 만들었다”는 식으로 과장된 인상을 줬음
실제로는 수천 개의 에이전트를 분리해 수주간 커밋을 쌓게 했지만, 결과물은 아직 작동하지 않음- “머지 충돌을 해결했다”는 표현은 별 의미 없음. ‘ours’나 ‘theirs’ 전략만 써도 항상 해결 가능함
- 그렇다면 누군가는 실제로 실행에 성공했을까? 스크린샷은 어디서 나온 걸까? 코드엔 오류가 너무 많음
- 링크 내용을 보면 브라우저가 작동한 것처럼 보이는데, 그게 어떻게 “보수적”이라는 건지 궁금함
-
나는 직접 확인해보려고 마지막 100개의 커밋에 대해
cargo check를 돌려봤음
결과는 전부 실패였음. 결과 로그 참고- 지금은 컴파일이 된다는 새 댓글이 있음
- 사실 스크린샷이 조작된 것일 수도 있음. Occam의 면도날로 보면 그게 가장 단순한 설명임
-
이런 홍보는 결국 펀드레이징 전략의 일환으로 보임
이전에도 내부 모델이 코드를 얼마나 작성했는지 등 모호한 포스트를 여러 번 올렸음
실질적인 내용이 없다는 뜻은 아니지만, 결과를 공개적으로 공유하지 않는 점은 아쉬움- 다른 모델 제공자들과 달리 벤치마크를 공개하지 않는 점이 늘 불만이었음
Cursor는 한때 화제였지만, 지금은 터미널 기반 에이전트가 대세임
우리 회사도 Cursor 계약을 종료하고 Claude Code로 바꾸려는 중임
아마 이번 브라우저 프로젝트는 다시 주목받기 위한 시도일 것임 - 이런 식의 과장은 결국 시장가치 부풀리기일 뿐임. 정당화될 수 없음
- 요즘은 모든 LLM 회사가 진실보다 ‘분위기 코드(vibe-coded)’ 마케팅에 의존함
GPT-5 발표 때도 비슷했음. 실질적 발전은 둔화되고 있음 - 예전엔 이런 과장이 싫었지만, 이제는 세상의 현실로 받아들이게 됨
결국 신뢰보다는 검증이 답임
- 다른 모델 제공자들과 달리 벤치마크를 공개하지 않는 점이 늘 불만이었음
-
Cursor는 비슷한 실험으로 Excel 클론도 만들고 있음
GitHub 저장소에 따르면
16만 번의 워크플로 중 247번만 성공했고, 대부분은 예산 초과로 실패함
에이전트들은 그런 제약엔 전혀 신경 쓰지 않음 -
최신 커밋은 이제 빌드와 실행이 가능함 (적어도 Mac에서는)
하지만 여전히 3백만 줄짜리 엉망 코드임
Cursor 홍보 영상에 나온 페이지는 렌더링되지 않음. 아마 다른 빌드를 쓴 듯함-
cargo check는 통과하지만,git log를 보면 뭔가 수상함
에이전트가 아니라 사람이 직접 수정한 흔적이 있음
커밋 로그 분석 참고
-
-
원글은 단순히 클릭 유도용 헤드라인이었다고 생각함
“수천 개의 AI 에이전트가 브라우저를 만들었다”는 문구는 너무 자극적임- 이제 누군가 “AI가 브라우저를 만들었다”고 말할 때 이 사례를 링크할 수 있게 됨
- 실제로 작동하지 않는 프로젝트들이 빠르게 뉴스 사이클을 돌고 있음
“가짜 뉴스”라는 말이 정치적으로 오염된 게 아쉬움. 이 분야엔 딱 맞는 표현임
-
Cursor CEO는 “Rust로 렌더링 엔진과 JS VM을 처음부터 만들었다”고 주장했지만,
실제 의존성 목록을 보면
html5ever, cssparser, rquickjs 등 Servo 기반 라이브러리를 그대로 사용했음
결국 Servo를 감싼 수준이며, 컴파일조차 안 됨- 왜 굳이 CSS와 JS를 직접 구현했다고 주장했는지 이해가 안 됨
대부분의 사람은 코드만 봐도 바로 알 텐데, 아마도 대중은 확인하지 않을 것이라 생각한 듯함
이런 식으로 잘못된 인식이 퍼지고, 나중에 정정돼도 아무도 신경 쓰지 않음 - 실제로는 Servo의 HTML/CSS 파서, QuickJS, resvg, egui, wgpu 등
기존 라이브러리로 구성되어 있음. 그게 3M 라인이라니 웃김 - selectors, taffy도 포함되어 있고, 일부는 구버전 의존성을 사용 중임
- JS 엔진은 개인 프로젝트를 vendor 폴더에 복사한 것일 뿐임
관련 내용은 여기 참고 - 레이아웃 코드는 Servo의 것을 쓴 건지, Cursor가 직접 쓴 건지 궁금함
그 부분이 브라우저에서 가장 어려운 영역임
- 왜 굳이 CSS와 JS를 직접 구현했다고 주장했는지 이해가 안 됨
-
이런 마케팅 접근법은 오히려 자충수라고 생각함
Cursor의 디자인과 UX는 훌륭하지만, 깊이 있는 작업에서는 버그가 너무 많음
Claude 모델 추가로 조금 나아졌지만 여전히 Antigravity보다 못함
게다가 $20 구독 한도도 금방 소진됨. 모델이 10배 좋아지고 10배 싸질 가능성은 낮음- 여러 AI 회사의 버그투성이 앱을 써보며, 진짜 업무에는 여전히 인간의 기술이 필요하다는 걸 느낌
OpenAI의 비즈니스 모델이 광고 중심으로 변하는 걸 보면,
구글이 이 기술을 더 현실적으로 이해하고 있었다는 생각이 듦
- 여러 AI 회사의 버그투성이 앱을 써보며, 진짜 업무에는 여전히 인간의 기술이 필요하다는 걸 느낌
-
이런 이야기들은 결국 ‘삽을 파는 사람들’ 을 위한 것임
잘 모르는 CEO가 이런 뉴스에 속아 실제 인력을 해고할 수도 있음