Addition is All You Need for Energy-efficient Language Models

(arxiv.org)

2P by GN⁺ 2024-10-10 | ★ favorite | 댓글과 토론

에너지 효율적인 언어 모델을 위한 Addition

연구 배경
- 대형 신경망은 대부분의 연산을 부동 소수점 텐서 곱셈에 사용함.
- 본 연구에서는 부동 소수점 곱셈기를 하나의 정수 덧셈기로 높은 정밀도로 근사할 수 있음을 발견함.
L-Mul 알고리듬
- 부동 소수점 수의 곱셈을 정수 덧셈 연산으로 근사하는 선형 복잡도의 곱셈 알고리듬 L-Mul을 제안함.
- 새로운 알고리듬은 8비트 부동 소수점 곱셈보다 적은 계산 자원을 소모하면서 더 높은 정밀도를 달성함.
- 부동 소수점 수의 곱셈은 정수 덧셈 연산에 비해 상당히 높은 에너지를 소모하므로, L-Mul 연산을 텐서 처리 하드웨어에 적용하면 요소별 부동 소수점 텐서 곱셈의 에너지 비용을 95%까지, 내적의 에너지 비용을 80%까지 줄일 수 있음.
이론적 및 실험적 평가
- L-Mul의 이론적 오류 기대값을 계산하고, 자연어 이해, 구조적 추론, 수학, 상식 질문 응답 등 다양한 텍스트, 시각, 상징적 작업에서 알고리듬을 평가함.
- 수치 분석 실험 결과는 이론적 오류 추정과 일치하며, 4비트 가수 L-Mul은 float8_e4m3 곱셈과 유사한 정밀도를 달성하고, 3비트 가수 L-Mul은 float8_e5m2보다 뛰어남을 보여줌.
- 주목할 만한 벤치마크 평가 결과, 주의 메커니즘에 L-Mul을 직접 적용하는 것이 거의 손실이 없음을 보여줌.
- 트랜스포머 모델에서 모든 부동 소수점 곱셈을 3비트 가수 L-Mul로 대체하면, 미세 조정 및 추론에서 float8_e4m3을 누적 정밀도로 사용하는 것과 동등한 정밀도를 달성함.

GN⁺의 정리

L-Mul 알고리듬은 에너지 효율성을 크게 향상시키면서도 높은 정밀도를 유지할 수 있는 방법을 제시함.
부동 소수점 연산의 에너지 소모 문제를 해결할 수 있는 가능성을 보여주며, 특히 대형 신경망 모델에서의 활용이 기대됨.
이 연구는 에너지 절약이 중요한 분야에서 큰 관심을 받을 수 있으며, 다른 유사한 기능을 가진 프로젝트로는 구글의 TensorFlow Lite가 있음.