SiLU와 SoftMax를 2배 빠르게 만드는 새로운

▲

GN⁺ 2024-05-16 | parent | ★ favorite | on: SiLU와 SoftMax를 2배 빠르게 만드는 새로운 지수 함수, 정확도 완전 유지(github.com/ggerganov)

Hacker News 의견

해커뉴스 댓글 모음 요약

20년 전 Hughes 레이더 신호 프로세서 이야기
- Hughes 레이더 신호 프로세서에서 e^x 계산을 최적화한 경험 공유.
- 32비트 단어의 각 8비트 값에 대해 256개의 e^x 테이블을 사용하여 최종 값을 곱셈으로 계산.
- 이전보다 5배 빠르게 동작했음.
- 이 기계는 이제는 구식이지만 당시에는 매우 빠른 처리 속도를 자랑했음.
LLM 추론 속도에 대한 silu와 softmax 개선의 영향
- LLM 추론 속도에 미치는 영향이 크지 않을 것이라는 의견.
- 대부분의 시간은 행렬 곱셈에 소비됨.
코드 최적화에 대한 감탄
- 복잡한 최적화 작업에 대한 놀라움과 감탄.
- 기여자가 jart라는 것을 알고 나서 이해하게 됨.
LUT 크기에 대한 의문
- 65536 크기의 LUT가 L1 캐시 전체 크기와 같아 비효율적일 수 있다는 의견.
- 그러나 확률적 조정으로 인해 잘 작동할 수도 있음.
CPU에서의 llama.cpp와 ggml 비교
- ggml이 tensorflow lite, onnxruntime 등과 비교해 어떤지 궁금해하는 의견.
CUDA 장치에서의 성능 비교
- gguf/llama.cpp가 비배치 추론에서 더 나은지, 아니면 exllamav2+flashattention이 여전히 우세한지에 대한 질문.
LUT 벡터화 가능성
- LUT를 벡터화할 수 있다는 의견.
- 관련 자료 링크 제공.
빠른 tanh 계산
- 빠른 tanh 계산에 대한 링크 제공.
CPU에서의 llama 성능
- 최적화에도 불구하고 CPU에서 많은 파라미터를 가진 llama가 너무 느릴 수 있다는 의견.