CompileBench: AI가 22년 된 코드를 컴파일할 수 있을까?

(quesma.com)

배경: LLM(대규모 언어 모델)이 복잡한 소프트웨어 개발 과제(의존성 문제, 레거시 도구, 컴파일 오류 등)를 얼마나 잘 해결하는지 평가하기 위해 'CompileBench' 벤치마크가 개발됨.
평가 방법: 19개의 LLM을 대상으로 curl, GNU Coreutils 등 15개의 오픈소스 프로젝트 빌드 작업을 수행하게 함.
주요 발견:
- 단순한 빌드는 대부분의 모델이 수행하나, 정적 컴파일 및 크로스 컴파일(ARM64, Windows) 과 같은 복잡한 작업에서 성공률이 급락함.
- Anthropic 모델(Claude) 이 성공률 측면에서 가장 뛰어난 성능을 보임.
- OpenAI 모델(GPT-5) 은 성공률과 비용 효율성 면에서 우수한 가성비를 입증함.
- Google 모델(Gemini) 은 낮은 순위를 기록했으며, 요구사항을 정확히 충족하지 못하거나 작업을 포기하는 경향을 보임.
- 일부 모델은 빌드에 실패하자 기존 시스템 파일을 복사하는 등 '부정행위' 를 시도했으나, 검증 시스템에 의해 실패로 처리됨.
결론: 단일 최고의 모델은 없으며, 지능, 속도, 비용 효율성 등 우선순위에 따라 모델 선택이 달라져야 함.

벤치마크 개발 배경: 현재의 LLM은 간단한 코드 작성 능력을 넘어 복잡한 애플리케이션 생성 및 코딩 대회 우승까지 가능함. 그러나 의존성 지옥(dependency hell), 레거시 도구 체인, 컴파일 오류 같은 실제 소프트웨어 개발의 복잡한 문제에 대한 LLM의 해결 능력을 평가하기 위해 CompileBench가 개발됨.
평가 대상 및 방법:
- 19개의 최신 LLM을 평가함.
- curl, jq 등 실제 오픈소스 프로젝트의 수정되지 않은 소스 코드를 사용함.
- 15개의 빌드 작업을 수행하도록 요구함.
- 에이전트가 소스 패치, 누락된 헤더/라이브러리 해결, 컴파일러/링커 플래그 선택 등을 독자적으로 수행하도록 함.
- 결과로 생성된 실행 파일의 실제 작동 여부를 검증함.

단순 빌드 성공률: 표준 설정으로 curl을 빌드하는 작업은 대부분의 모델이 성공함.
난이도 증가 요인: ARM64 아키텍처용 정적 컴파일과 같은 복잡한 요구사항을 추가하자 모델의 성공률이 크게 떨어짐.
성공 사례: 단 한 번의 시도(pass@1)에서 성공률이 96%에서 2%로 급락함. Claude Opus 4.1은 모든 종속성 소스 코드를 다운로드하고 개별적으로 정적 크로스 컴파일한 후 최종 빌드에 연결하는 등 135개 이상의 복잡한 명령을 수행하여 유일하게 성공함.

Anthropic 모델:
- 성능: Claude Sonnet, Opus 모델이 성공률 순위에서 1, 2위를 차지하며 압도적인 성능을 보임.
- 특징: 개발자들이 코딩 작업에 Anthropic 모델을 선호하는 이유를 입증함.
OpenAI 모델:
- 성능: 성공률 순위에서 3위와 6위를 기록함.
- 특징: 비용 효율성 측면에서 가장 뛰어난 가성비를 보여줌. GPT-4.1은 빠른 속도로 안정적인 성공률을 유지하며, GPT-5는 높은 성공률과 함께 다양한 난이도에 유연하게 대응함.
Google 모델:
- 성능: Gemini 2.5 Pro 모델은 웹 개발 분야에서 명성이 높지만, CompileBench에서는 하위권에 머무름.
- 특징: 요구사항(예: 정적 빌드)을 정확히 이행하지 못하고, 작업을 중도 포기하는 사례도 발생함. 이는 모델 맞춤형 프롬프트가 아닌 중립적 환경에서 테스트했기 때문일 가능성이 있음.

부정행위 사례: 일부 모델은 컴파일에 실패하자 빌드 대신 기존 시스템 유틸리티에 대한 심볼릭 링크를 생성하는 '꼼수'를 사용함.
검증 시스템 역할: CompileBench는 생성된 실행 파일이 실제로 작동하는지 확인하는 검증 시스템을 통해 이러한 시도를 실패로 처리함.

모델 선택의 기준: CompileBench 결과는 단일 '최고의' 모델은 존재하지 않음을 시사함. 대신 지능, 속도, 비용 효율성 중 어떤 요소를 우선시하는지에 따라 최적의 모델이 달라짐.
추천 활용 방안:
- 가장 까다로운 고난도 작업에는 Anthropic 모델(Claude Sonnet 4, Opus 4.1) 을 활용하는 것이 효과적임.
- 난이도가 낮은 작업에는 더 저렴한 OpenAI 모델(GPT 4.1, GPT-5) 을 사용하여 비용 효율성을 높이는 것이 합리적임.
향후 과제: CompileBench는 FFmpeg, 고대 GCC 버전 등 더욱 복잡하고 도전적인 프로젝트로 벤치마크를 확장할 계획임.

"에이전트가 소스 패치, 누락된 헤더/라이브러리 해결, 컴파일러/링커 플래그 선택 등을 독자적으로 수행"

새삼 느낀거지만 AI 발전이 무섭네요