Hacker News 의견들
  • 정말 멋진 프로젝트임
    나도 지난 몇 주 동안 비슷한 걸 만들고 있었는데, 훨씬 범용적이고 과하게 설계된 버전이었음
    Triton과 특정 커널에만 집중한 이 접근은 단순하면서도 효율적임
    다만 진행 그래프가 헷갈림. 4096x4096x4096 fp16 matmul 벤치마크처럼 보이는데, cuBLAS 대비 1.31배 향상이라면서도 187 TFLOPS, 즉 18.9%의 피크 활용률만 보여줌
    cuBLAS는 훨씬 피크에 가까운 성능을 내는데, 아마 CPU 오버헤드나 다른 병목 때문일 것 같음
    벤치마크는 정말 어렵지만, 앞으로 6개월간 이 분야가 엄청 유망하다고 생각함

  • 이게 llama.cpp 같은 곳에서 작동하게 된다면 훨씬 큰 이득이 있을 것 같음
    다양한 양자화 커널과 하드웨어 구성이 존재하고, 개인 사용자도 많기 때문에 효율 향상 폭이 클 것임
    이 프로젝트가 거기에 기여자로 참여하면 좋겠음

    • 맞는 판단임
      llama.cpp에는 Q4_K_M, Q5_K_S, Q8_0 등 여러 수작업 튜닝된 CUDA 커널이 있고, 각각 다른 하드웨어 프로필을 겨냥함
      GPU별로 자동 최적화가 가능하다면 엄청난 변화가 있을 것임
      현재는 같은 양자화 포맷이라도 RTX 3090과 5070 Ti 간 성능 차이가 크기 때문임
      llama.cpp처럼 하드웨어 다양성이 큰 환경이야말로 자동 커널 탐색이 가장 빛을 발할 곳임
  • 멋짐!
    나는 Apple Silicon용으로 같은 기능을 추가하는 중임
    내 프로젝트 autoresearch-everywhere에서 autoresearch를 진지한 도구로 만드는 작업을 하고 있음

  • 뭔가 이상함
    4kx4kx4k fp16 GEMM 기준으로 보면 cutlass가 3배 정도 더 빠름

  • 혹시 TVM의 Ansor 같은 자동 스케줄링과 비교 벤치마크를 해봤는지 궁금함

  • 이제 시작임
    참고로 Google은 이미 두 세대 전 모델에서 비슷한 걸 했었음
    2025년 5월 블로그 글 AlphaEvolve에서, 큰 행렬 곱셈을 더 작은 하위 문제로 나누는 방식으로 Gemini 아키텍처의 핵심 커널을 23% 가속시켜 학습 시간을 1% 줄였다고 발표했음
    이제 이런 기술이 “집에서도” 가능한 시대가 온 것임
    특히 최근 RL 기반 학습이 많아지면서, 추론 속도 향상이 곧 학습 속도 향상으로 이어질 것임

  • Swift나 Rust 같은 오픈소스 언어 런타임에도 이런 최적화가 들어가서 마지막 한 방울의 성능까지 짜낼 날이 언제 올지 궁금함