정말 멋진 프로젝트임
나도 지난 몇 주 동안 비슷한 걸 만들고 있었는데, 훨씬 범용적이고 과하게 설계된 버전이었음
Triton과 특정 커널에만 집중한 이 접근은 단순하면서도 효율적임
다만 진행 그래프가 헷갈림. 4096x4096x4096 fp16 matmul 벤치마크처럼 보이는데, cuBLAS 대비 1.31배 향상이라면서도 187 TFLOPS, 즉 18.9%의 피크 활용률만 보여줌
cuBLAS는 훨씬 피크에 가까운 성능을 내는데, 아마 CPU 오버헤드나 다른 병목 때문일 것 같음
벤치마크는 정말 어렵지만, 앞으로 6개월간 이 분야가 엄청 유망하다고 생각함
이게 llama.cpp 같은 곳에서 작동하게 된다면 훨씬 큰 이득이 있을 것 같음
다양한 양자화 커널과 하드웨어 구성이 존재하고, 개인 사용자도 많기 때문에 효율 향상 폭이 클 것임
이 프로젝트가 거기에 기여자로 참여하면 좋겠음
맞는 판단임
llama.cpp에는 Q4_K_M, Q5_K_S, Q8_0 등 여러 수작업 튜닝된 CUDA 커널이 있고, 각각 다른 하드웨어 프로필을 겨냥함
GPU별로 자동 최적화가 가능하다면 엄청난 변화가 있을 것임
현재는 같은 양자화 포맷이라도 RTX 3090과 5070 Ti 간 성능 차이가 크기 때문임
llama.cpp처럼 하드웨어 다양성이 큰 환경이야말로 자동 커널 탐색이 가장 빛을 발할 곳임
멋짐!
나는 Apple Silicon용으로 같은 기능을 추가하는 중임
내 프로젝트 autoresearch-everywhere에서 autoresearch를 진지한 도구로 만드는 작업을 하고 있음
뭔가 이상함
4kx4kx4k fp16 GEMM 기준으로 보면 cutlass가 3배 정도 더 빠름
혹시 TVM의 Ansor 같은 자동 스케줄링과 비교 벤치마크를 해봤는지 궁금함
이제 시작임
참고로 Google은 이미 두 세대 전 모델에서 비슷한 걸 했었음
2025년 5월 블로그 글 AlphaEvolve에서, 큰 행렬 곱셈을 더 작은 하위 문제로 나누는 방식으로 Gemini 아키텍처의 핵심 커널을 23% 가속시켜 학습 시간을 1% 줄였다고 발표했음
이제 이런 기술이 “집에서도” 가능한 시대가 온 것임
특히 최근 RL 기반 학습이 많아지면서, 추론 속도 향상이 곧 학습 속도 향상으로 이어질 것임
Swift나 Rust 같은 오픈소스 언어 런타임에도 이런 최적화가 들어가서 마지막 한 방울의 성능까지 짜낼 날이 언제 올지 궁금함
Hacker News 의견들
정말 멋진 프로젝트임
나도 지난 몇 주 동안 비슷한 걸 만들고 있었는데, 훨씬 범용적이고 과하게 설계된 버전이었음
Triton과 특정 커널에만 집중한 이 접근은 단순하면서도 효율적임
다만 진행 그래프가 헷갈림. 4096x4096x4096 fp16 matmul 벤치마크처럼 보이는데, cuBLAS 대비 1.31배 향상이라면서도 187 TFLOPS, 즉 18.9%의 피크 활용률만 보여줌
cuBLAS는 훨씬 피크에 가까운 성능을 내는데, 아마 CPU 오버헤드나 다른 병목 때문일 것 같음
벤치마크는 정말 어렵지만, 앞으로 6개월간 이 분야가 엄청 유망하다고 생각함
이게 llama.cpp 같은 곳에서 작동하게 된다면 훨씬 큰 이득이 있을 것 같음
다양한 양자화 커널과 하드웨어 구성이 존재하고, 개인 사용자도 많기 때문에 효율 향상 폭이 클 것임
이 프로젝트가 거기에 기여자로 참여하면 좋겠음
llama.cpp에는 Q4_K_M, Q5_K_S, Q8_0 등 여러 수작업 튜닝된 CUDA 커널이 있고, 각각 다른 하드웨어 프로필을 겨냥함
GPU별로 자동 최적화가 가능하다면 엄청난 변화가 있을 것임
현재는 같은 양자화 포맷이라도 RTX 3090과 5070 Ti 간 성능 차이가 크기 때문임
llama.cpp처럼 하드웨어 다양성이 큰 환경이야말로 자동 커널 탐색이 가장 빛을 발할 곳임
멋짐!
나는 Apple Silicon용으로 같은 기능을 추가하는 중임
내 프로젝트 autoresearch-everywhere에서 autoresearch를 진지한 도구로 만드는 작업을 하고 있음
뭔가 이상함
4kx4kx4k fp16 GEMM 기준으로 보면 cutlass가 3배 정도 더 빠름
혹시 TVM의 Ansor 같은 자동 스케줄링과 비교 벤치마크를 해봤는지 궁금함
이제 시작임
참고로 Google은 이미 두 세대 전 모델에서 비슷한 걸 했었음
2025년 5월 블로그 글 AlphaEvolve에서, 큰 행렬 곱셈을 더 작은 하위 문제로 나누는 방식으로 Gemini 아키텍처의 핵심 커널을 23% 가속시켜 학습 시간을 1% 줄였다고 발표했음
이제 이런 기술이 “집에서도” 가능한 시대가 온 것임
특히 최근 RL 기반 학습이 많아지면서, 추론 속도 향상이 곧 학습 속도 향상으로 이어질 것임
Swift나 Rust 같은 오픈소스 언어 런타임에도 이런 최적화가 들어가서 마지막 한 방울의 성능까지 짜낼 날이 언제 올지 궁금함