GN⁺: 제한된 메모리로 효율적인 LLM 추론을 가능하게 하는 'LLM in a Flash'
(huggingface.co)NLP 논문 읽기 컬렉션
- 자연어 처리(NLP)에 관한 논문 읽기 컬렉션은 22개의 항목으로 구성되어 있음.
- 이 컬렉션은 최근 업데이트되었으며, NLP 분야의 최신 연구 동향을 파악하는 데 유용함.
- NLP는 인간의 언어를 컴퓨터가 이해하고 처리할 수 있도록 하는 기술로, 기계 번역, 감정 분석, 질의 응답 시스템 등 다양한 응용 분야가 있음.
GN⁺의 의견
- 이 컬렉션은 NLP 분야의 최신 연구를 한눈에 볼 수 있는 자료로, NLP에 관심 있는 연구자나 개발자에게 매우 유용할 것임.
- NLP는 AI 기술 중에서도 특히 빠르게 발전하고 있는 분야로, 이 컬렉션을 통해 최신 트렌드와 혁신적인 아이디어를 접할 수 있음.
- 자연어 처리 기술은 우리 일상생활에 깊숙이 통합되어 있으며, 이 컬렉션을 통해 그 기술의 발전 방향과 미래의 가능성을 엿볼 수 있음.
Hacker News 의견
-
해당 논문을 이해하는 데 시간이 걸렸는데, 이는 'Deja Vu' 논문의 기술을 기반으로 하며, 희소성을 활용하는 복잡한 기법들을 다루고 있기 때문이다:
- 'Deja Vu' 논문은 낮은 가중치 희소성을 가진 모델들이 높은 "문맥적 희소성"을 가진다고 관찰함. 즉, 행렬 곱셈이 입력에 따라 다른 위치에 많은 0을 포함한 벡터를 생성함.
- 논문은 이러한 희소성을 활용해 행렬의 일부 행을 불러오지 않을 수 있음을 지적함.
- 하지만 좋은 성능 향상을 얻기 위해서는 미리 어떤 행을 건너뛸지 예측할 수 있어야 함. 이는 저차원 행렬로 가능함.
- 애플의 논문은 이러한 발견이 RAM에서 불러오는 성능을 향상시킬 뿐만 아니라, 플래시 메모리에서 불러오는 것도 대역폭을 희생하지 않고 가능하게 함을 제안함:
- 주목해야 할 점은 주의(attention) 행렬이 가벼우며, 피드포워드 네트워크(FFN)를 희소하게 불러오는 것이 중요함을 논문이 언급함.
- ReLU 계층의 출력을 예측하는 것이 FFN의 입력을 예측하는 것보다 훨씬 더 나은 희소성을 얻을 수 있음을 논문이 지적함. 즉, "matmul 후에 이 벡터 슬롯이 ReLU 전에 음수 값을 가질 것이라고 예측할 수 있다면, 해당 행렬 열을 불러오지 않고 0을 출력할 수 있음"을 의미함.
- 논문은 대부분의 FFN 행을 전혀 불러올 필요가 없으며, 각 FFN에 대해 최근 사용된 FFN 행의 캐시를 유지하고 필요에 따라 플래시 메모리에서 업데이트할 수 있음을 제안함.
- 논문에는 청크 로딩과 투영 계층 간의 상관관계에 대한 내용도 있지만, 주요 통찰은 위에서 언급한 부분임.
-
논문의 결론 부분에서 이 기능이 사용자에게 어떻게 제공될지에 대한 섹션을 찾기를 희망했지만, 아마도 그 논의는 범위를 벗어난 것일 수도 있다.
- 이러한 기능이 CoreML의 API 호출 및 설정으로 사용자에게 제공되는 것인지, 예를 들어 use_flash 플래그를 설정해야 하는지, 아니면 사용자에게 투명한 런타임 최적화가 되는지 궁금함. 애플이 CoreML, Metal 등의 개발 로드맵에 대해 논의하는 좋은 발표나 프레젠테이션이 있는지 알고 싶음.
-
모델의 얼마나 많은 부분을 불러오지 않아도 실제 성능 차이를 보기 시작하는지 궁금하다.
- 예를 들어, RAM에서의 성능의 90%를 유지하고 싶다면, 메모리의 절반만 사용해도 되는지, 아니면 90%나 95%가 필요한지에 대한 질문.
- RAM을 줄임으로써 최대 성능 대비 성능 손실이 얼마나 빠르게 발생하는지에 대한 궁금증. 차트는 더 적은 RAM을 사용할 경우 기본 알고리즘과 비교하는 것이지만, 이는 다른 (그러나 좋은!) 질문임.
- 만약 8기가 모델 전체를 휴대폰 메모리에 불러오지 않고도 좋은 성능을 얻을 수 있다면, 이는 분명 매우 유용한 일임.
-
애플 기기는 경쟁사의 유사한 기기들에 비해 RAM이 매우 적다는 점이 주목할 만하다.
- 이는 애플의 소프트웨어 팀이 Objective-C와 같은 더 효율적인 언어를 사용하기 때문이기도 하고, iOS 애플리케이션이 다양한 화면 해상도를 대상으로 하지 않아 고해상도 텍스처를 불러온 후 다운스케일링하는 일이 적기 때문이기도 함.
- 또한 애플 규모에서 RAM을 구매한다고 해서 RAM 가격이 크게 저렴해지지 않으므로, RAM을 늘리는 것은 다른 기능을 추가하는 것보다 마진에 더 큰 영향을 미침.
- 하지만 이 모든 것이 대규모 언어 모델(LLM)을 사용할 때 문제가 되는데, 이는 본질적으로 RAM을 많이 소모함. 그리고 어떠한 메모리 절약 기술도 더 많은 RAM을 가진 경쟁자가 더 크고 더 나은 모델을 구현하는 데 사용될 수 있음.
-
주제에 대한 이해가 제한적이지만, 이 기술을 사용하면 모바일 폰에서 오프라인 모드로 LLM을 실행할 수 있는지 궁금하다.
- 만약 가능하다면, 기밀 데이터를 외부로 전송하지 않고 AI 지원 콘텐츠 모더레이션과 같은 많은 흥미로운 응용 프로그램으로 이어질 수 있음.
-
최근 기사들이 "AI" 대신 "LLM"이라고 언급하는 것을 높이 평가한다.
- 그렇게 함으로써 마케팅 하이프가 아닌 구체적인 기술에 대한 것임을 알 수 있음.
-
이 논문이 FlashAttention을 언급하지 않은 것은 다소 놀랍다.
- 두 연구 모두 플래시 메모리를 활용하기 때문에, 최소한 언급했어야 할 것으로 보임.
-
애플이 이란 회사를 인수했나?
-
예를 들어, OPT 6.7B 모델은 FFN 계층 내에서 97%의 희소성을 보인다고 한다.
- 여기서 언급된 메트릭이 정확히 무엇을 의미하는지 아는 사람이 있는지 궁금함. 계층에 97%의 0 값이 있는 것을 의미하는지, 아니면 그 크기를 3%로 압축할 수 있다는 것을 의미하는지에 대한 질문.
-
이 기술이 llama.cpp와 candle에 통합되기를 바란다.
- 이러한 발전이 매우 놀랍고, 언젠가는 이 라이브러리들에도 적용되기를 희망함.