AutoKernel: GPU 커널 자동 연구 시스템

(github.com/RightNow-AI)

9P by GN⁺ 4달전 | ★ favorite | 댓글 1개

Karpathy의 Autoresearch를 GPU 커널 최적화에 적용
PyTorch 모델을 입력하면 자동으로 Triton 또는 CUDA C++ 커널을 최적화하는 GPU 커널 자동 연구 도구
모델의 병목 커널을 프로파일링·추출·최적화·검증하는 완전 자동화 파이프라인 제공
Amdahl의 법칙 기반 오케스트레이션으로 우선순위를 조정하며, 각 실험은 약 90초 소요되어 밤새 수백 회 반복 가능
KernelBench와 통합되어 250개 이상 문제에 대해 50~300회 반복 실험을 수행, 단발성 생성보다 체계적 탐색 가능
Triton과 CUDA C++ 이중 백엔드, 정확성 우선 검증, 단일 파일 수정 구조로 효율적이고 재현 가능한 커널 최적화 지원

작동 원리

AutoKernel은 PyTorch 모델을 입력받아 다음 단계를 수행
- 프로파일링으로 GPU 병목 커널 식별
- 추출하여 독립적인 Triton 또는 CUDA C++ 커널로 분리
- 자동 최적화 루프를 통해 수정·벤치마크·유지/되돌리기 반복
- 정확성 검증 후 전체 속도 향상 보고
program.md에 포함된 지침을 기반으로 kernel.py를 수정하며, bench.py를 통해 5단계 정확성 검사와 roofline 분석을 수행
각 실험은 약 90초, 시간당 약 40회, 하룻밤 동안 약 320회 실험 가능

실행 및 구성 요소

필수 환경: NVIDIA GPU(H100/A100/RTX 4090), Python 3.10+, uv 패키지
주요 스크립트 구성
- profile.py: GPU 시간 기준 커널 순위화
- extract.py: 상위 병목 커널 추출
- bench.py: 5단계 정확성 및 성능 벤치마크
- orchestrate.py: Amdahl의 법칙 기반 다중 커널 스케줄링
- verify.py: 전체 모델 검증 및 속도 향상 보고
program.md는 6단계 최적화 전략, 충돌 처리, 의사결정 프레임워크를 포함해 장시간 자동 실행 가능

지원 커널 및 예제 모델

9종 커널 유형 지원: matmul, softmax, layernorm, rmsnorm, flash_attention, fused_mlp, cross_entropy, rotary_embedding, reduce
각 커널은 PyTorch 기준 구현(reference.py), Triton/CUDA 초기 버전(kernels/, kernels/cuda/) 포함
예제 모델: GPT-2, LLaMA(7B 포함), BERT-base, 사용자 정의 모델
HuggingFace 모델도 uv sync --extra models로 연동 가능

KernelBench 통합

KernelBench(Stanford Scaling Intelligence Lab)와 통합되어 AI 생성 GPU 커널의 표준 벤치마크 수행
AutoKernel은 문제당 50~300회 반복 실험으로 최적화 공간을 체계적으로 탐색
주요 도구
- bridge.py: 문제 로드 및 초기 커널 생성
- bench_kb.py: 정확성·성능 평가
- scorer.py: 전체 레벨 점수 계산
- program_kb.md: KernelBench 전용 에이전트 지침

HuggingFace Hub 내보내기

최적화된 커널을 HuggingFace Hub로 내보내고, get_kernel()로 간단히 불러오기 가능
export_hf.py로 CUDA 커널 내보내기 및 업로드 지원

설계 원칙

Triton + CUDA C++ 이중 백엔드: Triton은 빠른 반복, CUDA는 최고 성능 제공
정확성 우선: PyTorch 결과와 일치하지 않으면 즉시 되돌림
Amdahl의 법칙 기반 오케스트레이션으로 전체 성능 기여도에 따라 우선순위 결정
단일 파일 수정 구조(kernel.py)로 변경 추적과 복구 용이
TSV 로그(results.tsv)로 실험 결과를 단순·가독성 있게 기록

결과 기록 형식

results.tsv에 각 실험의 번호, 커널 유형, 처리량(TFLOPS), 지연시간, GPU 피크 대비 비율, PyTorch 대비 속도 향상, 정확성, VRAM 사용량, 설명이 기록됨

프로젝트 배경

Andrej Karpathy의 autoresearch 개념에서 영감을 받아, LLM 연구용 자율 AI 에이전트 구조를 GPU 커널 최적화에 적용
KernelBench 통합은 Stanford Scaling Intelligence Lab의 연구를 기반으로 하며, AutoKernel은 단발성 생성 대신 반복적 최적화를 수행
프로젝트는 RightNow AI의 Forge 팀이 개발, MIT 라이선스로 공개됨

GN⁺ 4달전 [-]

Hacker News 의견들

정말 멋진 프로젝트임
나도 지난 몇 주 동안 비슷한 걸 만들고 있었는데, 훨씬 범용적이고 과하게 설계된 버전이었음
Triton과 특정 커널에만 집중한 이 접근은 단순하면서도 효율적임
다만 진행 그래프가 헷갈림. 4096x4096x4096 fp16 matmul 벤치마크처럼 보이는데, cuBLAS 대비 1.31배 향상이라면서도 187 TFLOPS, 즉 18.9%의 피크 활용률만 보여줌
cuBLAS는 훨씬 피크에 가까운 성능을 내는데, 아마 CPU 오버헤드나 다른 병목 때문일 것 같음
벤치마크는 정말 어렵지만, 앞으로 6개월간 이 분야가 엄청 유망하다고 생각함
이게 llama.cpp 같은 곳에서 작동하게 된다면 훨씬 큰 이득이 있을 것 같음
다양한 양자화 커널과 하드웨어 구성이 존재하고, 개인 사용자도 많기 때문에 효율 향상 폭이 클 것임
이 프로젝트가 거기에 기여자로 참여하면 좋겠음
- 맞는 판단임
  llama.cpp에는 Q4_K_M, Q5_K_S, Q8_0 등 여러 수작업 튜닝된 CUDA 커널이 있고, 각각 다른 하드웨어 프로필을 겨냥함
  GPU별로 자동 최적화가 가능하다면 엄청난 변화가 있을 것임
  현재는 같은 양자화 포맷이라도 RTX 3090과 5070 Ti 간 성능 차이가 크기 때문임
  llama.cpp처럼 하드웨어 다양성이 큰 환경이야말로 자동 커널 탐색이 가장 빛을 발할 곳임
멋짐!
나는 Apple Silicon용으로 같은 기능을 추가하는 중임
내 프로젝트 autoresearch-everywhere에서 autoresearch를 진지한 도구로 만드는 작업을 하고 있음
뭔가 이상함
4kx4kx4k fp16 GEMM 기준으로 보면 cutlass가 3배 정도 더 빠름
혹시 TVM의 Ansor 같은 자동 스케줄링과 비교 벤치마크를 해봤는지 궁금함
이제 시작임
참고로 Google은 이미 두 세대 전 모델에서 비슷한 걸 했었음
2025년 5월 블로그 글 AlphaEvolve에서, 큰 행렬 곱셈을 더 작은 하위 문제로 나누는 방식으로 Gemini 아키텍처의 핵심 커널을 23% 가속시켜 학습 시간을 1% 줄였다고 발표했음
이제 이런 기술이 “집에서도” 가능한 시대가 온 것임
특히 최근 RL 기반 학습이 많아지면서, 추론 속도 향상이 곧 학습 속도 향상으로 이어질 것임
Swift나 Rust 같은 오픈소스 언어 런타임에도 이런 최적화가 들어가서 마지막 한 방울의 성능까지 짜낼 날이 언제 올지 궁금함