병렬 Claude 팀을 활용한 C 컴파일러 구축

▲

GN⁺ 3달전 | parent | ★ favorite | on: 병렬 Claude 팀을 활용한 C 컴파일러 구축(anthropic.com)

Hacker News 의견들

나는 Google에서 거의 10년 동안 Clang으로 Linux 커널 빌드 작업을 했음. 이번 프로젝트(clangbuiltlinux.github.io)는 LLM이 2,000회 세션과 2만 달러의 API 비용으로 같은 일을 해냈다고 함. 실제로 부팅까지 된다고 하니 놀라움. 다만 생성된 코드의 효율성은 낮고, GCC의 최적화 해제 버전보다도 비효율적이라고 함. 그래도 정말 멋진 프로젝트임
- 멋지긴 하지만, 어쩌면 다른 사람의 숙제를 베낀 결과일 수도 있음
- Opus가 16비트 x86 코드 생성기를 구현하지 못해 부팅 단계에서 GCC를 호출하는 편법을 썼다고 함. 진짜로 부팅된 건지 의문임
- 이건 마치 Ken Thompson의 “Trusting Trust” 시대가 다시 오는 느낌임. AI가 곧 컴파일러 내부에 스스로를 심을 수도 있음
- 2만 달러가 들었다면, 그 돈으로 시니어 개발자 8명을 단기간 고용할 수도 있었음. 마케팅 비용이 과도하게 들어간 것 같고, 실제 수익 구조는 불분명함
Cursor 브라우저 프로젝트보다 훨씬 현실적인 접근임. 클린룸 구현이라며 인터넷 접근 없이 Rust 표준 라이브러리만 사용했다고 함. 10만 줄짜리 컴파일러가 Linux 6.9, QEMU, FFmpeg, SQLite, Postgres, Redis까지 빌드 가능하다고 함.
Opus 4.5가 처음으로 대형 테스트를 통과할 수 있었고, 이번 결과는 그 한계를 거의 다 쓴 듯함.
여러 제약에도 불구하고 인상적인 실험이라 생각함
- “클린룸 구현”이라는 표현은 과장된 듯함. 이미 인터넷 전체의 C 컴파일러를 학습한 모델이니까 굳이 그런 말을 붙일 필요는 없음
- 이런 결과를 현재 수준만 보고 평가하는 건 아쉬움. 최근 몇 달 사이의 발전 속도를 보면 1년 뒤엔 상상 이상일 것임
- 사실상 클린룸이라기보다, LLM이 학습 중 압축된 지식을 테스트 기반으로 풀어낸 결과에 가까움
- 어차피 GCC나 Clang 코드로 훈련된 모델일 텐데, 실제 코드 유사성이 얼마나 되는지 궁금함
- 개인적으로는 대단하긴 하지만, 실제 사용자 입장에서는 덜 흥미로움. 새로운 ISA를 LLVM에 추가하거나, 새 언어용 컴파일러를 만드는 게 더 의미 있을 듯함
처음엔 “와, 대단하다”였지만 곧 생각이 바뀜. C 컴파일러는 명세가 매우 엄격한 소프트웨어라서 LLM이 다루기 쉬운 편임.
하지만 우리가 하는 대부분의 일은 요구사항이 모호하고, 목표가 계속 바뀌는 환경임. 이런 영역에서도 잘 작동할지가 궁금함
- “C 컴파일러는 명확하다”는 말에 웃음이 나옴. “unspecified behavior” 가 얼마나 많은데
- 코드 생성이 테스트에 맞춰지는 건 ML 모델 피팅과 비슷함. 인간은 여전히 테스트를 설계하고 검증해야 함
결과가 완벽해야 한다는 기대가 이상하게 느껴짐. 가능한 것 자체가 놀라움. 이런 시도가 다음 Opus나 Sonnet 학습에 반영되어, 언젠가 효율적인 컴파일러를 스스로 만드는 모델이 나올지도 모름
- 나도 같은 생각임. “개가 춤을 얼마나 잘 추느냐보다, 춤을 춘다는 사실이 놀라운 것”임
- 요즘 생성형 AI에 대한 반감이 커서, 조금의 결함만 있어도 ‘AI 쓰레기’ 라고 몰아가는 분위기가 아쉬움. 이건 단순한 데모이자 개념 증명인데 말임
이 프로젝트는 Linux 커널, QEMU, FFmpeg, Redis, Doom까지 빌드할 수 있다고 함. 정말 놀라움.
하지만 이런 에이전트 시스템은 테스트 가능한 영역에선 잘 작동하지만, 비즈니스 의사결정처럼 맥락이 필요한 영역에선 한계가 있음
- 이미 인터넷 전체로 학습된 모델에게 “클린룸 구현”이란 개념이 의미가 있는지 의문임
- 다음 단계는 AI가 실제 비즈니스 문맥을 이해하고 운영하는 것임. 예를 들어 Vending-Bench 같은 벤치마크를 보면, AI 제품 매니저가 사용자 인터뷰, 실험, 로드맵 제안까지 자동으로 수행할 날이 머지않음
멋진 프로젝트지만, “클린룸” 언급은 빼는 게 나았음. 저작권 있는 코드로 훈련된 모델이니까 그 반대에 가까움
- 하지만 인간도 기존 코드베이스를 학습하고, 그 지식을 바탕으로 클린룸 구현을 하기도 함
- 인간이 회사에서 배운 지식을 다른 곳에서 재활용하는 것처럼, LLM도 학습된 데이터를 변형적 방식으로 재구성하는 것임. 직접 복사만 아니라면 문제는 다름없음
GitHub 이슈에 따르면, 문제는 include 경로 누락 때문임. 컴파일러 자체는 정상임
- 단순히 glibc-devel 같은 패키지가 빠진 듯함
- 글이 너무 길고 근거가 부족했음. 핵심을 놓친 느낌임
- AI는 미래임
- 정말 놀라운 결과임
나는 모든 프롬프트와 에이전트 구조를 공개했으면 함. 학습용으로 훌륭할 텐데, 2만 달러를 직접 써서 재현하기엔 부담스러움
- 요즘은 결과물만 보고 과정은 궁금해하지 않는 분위기가 아쉬움
이건 Cursor 블로그의 작동 버전 같음. 실제로 Linux 커널을 빌드했다는 증거가 훨씬 설득력 있음
- 원래 만우절용으로 가벼운 언어를 만들려 했는데, 이제 이런 수준의 결과가 나오니 놀라움. 그래도 계속 시도해볼 생각임
이건 “피라미드는 지을 수 있지만 성당은 못 짓는” 식의 접근임 (관련 글).
엄청난 컴퓨팅 자원을 투입해 기능을 억지로 구현한 셈이고, 2만 달러가 불탔다고 표현할 만함.
지수적 컴퓨팅으로 선형적 결과를 얻는 건 의미 있지만, 장기적으로는 비효율적인 방향 같음
- 2만 달러면 API 기준이고, 구독 기준으로는 Max 플랜 5~6개 수준일 듯함
- 그래도 그건 FAANG 엔지니어 2주치 인건비에 불과함. 인간이 2주 만에 컴파일러를 만들 순 없으니, 시연용으로는 충분히 가치 있음