▲GN⁺ 2024-05-16 | parent | ★ favorite | on: SiLU와 SoftMax를 2배 빠르게 만드는 새로운 지수 함수, 정확도 완전 유지(github.com/ggerganov)Hacker News 의견 해커뉴스 댓글 모음 요약 20년 전 Hughes 레이더 신호 프로세서 이야기 Hughes 레이더 신호 프로세서에서 e^x 계산을 최적화한 경험 공유. 32비트 단어의 각 8비트 값에 대해 256개의 e^x 테이블을 사용하여 최종 값을 곱셈으로 계산. 이전보다 5배 빠르게 동작했음. 이 기계는 이제는 구식이지만 당시에는 매우 빠른 처리 속도를 자랑했음. LLM 추론 속도에 대한 silu와 softmax 개선의 영향 LLM 추론 속도에 미치는 영향이 크지 않을 것이라는 의견. 대부분의 시간은 행렬 곱셈에 소비됨. 코드 최적화에 대한 감탄 복잡한 최적화 작업에 대한 놀라움과 감탄. 기여자가 jart라는 것을 알고 나서 이해하게 됨. LUT 크기에 대한 의문 65536 크기의 LUT가 L1 캐시 전체 크기와 같아 비효율적일 수 있다는 의견. 그러나 확률적 조정으로 인해 잘 작동할 수도 있음. CPU에서의 llama.cpp와 ggml 비교 ggml이 tensorflow lite, onnxruntime 등과 비교해 어떤지 궁금해하는 의견. CUDA 장치에서의 성능 비교 gguf/llama.cpp가 비배치 추론에서 더 나은지, 아니면 exllamav2+flashattention이 여전히 우세한지에 대한 질문. LUT 벡터화 가능성 LUT를 벡터화할 수 있다는 의견. 관련 자료 링크 제공. 빠른 tanh 계산 빠른 tanh 계산에 대한 링크 제공. CPU에서의 llama 성능 최적화에도 불구하고 CPU에서 많은 파라미터를 가진 llama가 너무 느릴 수 있다는 의견.
Hacker News 의견
해커뉴스 댓글 모음 요약
20년 전 Hughes 레이더 신호 프로세서 이야기
LLM 추론 속도에 대한 silu와 softmax 개선의 영향
코드 최적화에 대한 감탄
LUT 크기에 대한 의문
CPU에서의 llama.cpp와 ggml 비교
CUDA 장치에서의 성능 비교
LUT 벡터화 가능성
빠른 tanh 계산
CPU에서의 llama 성능