ANEMLL - 애플 뉴럴 엔진에서 LLM 구동을 위한 오픈소스 프로젝트
(github.com/Anemll)- Apple Neural Engine(ANE) 에서 실행 가능한 LLM 추론 파이프라인을 제공
- Hugging Face 모델을 기반으로 Swift/C++ 기반 앱이나 iOS/macOS 앱에서 온디바이스 추론이 가능하게 함
- 최신인 0.3.0 Alpha는 Hugging Face 모델을 CoreML 형식으로 변환하는 도구, Swift 기반 추론 CLI 구현체, iOS/macOS 앱 샘플, Python 테스트 코드, 벤치마크 툴을 포함
- LLaMA 3.2 (1B / 8B) 모델 및 Distilled DeepSeek R1 8B/DeepHermes 3B 및 8B 지원, 향후 더 다양한 모델 아키텍처로 확장 예정
- Hugging Face 모델을 ANE용으로 변환할 수 있는 유연하고 쉬운 프레임워크 제공이 목표
Hacker News 의견
-
Apple이 ANE 최적화 모델로 "최대 10배 빠르고 14배 낮은 메모리 소비"를 주장한 것에 대해 후속 조치가 있었는지 궁금함
- MLX와 llama.cpp는 ANE를 지원하지 않음
- llama.cpp는 이 아이디어를 탐색 중임
- MLX는 Apple이 만든 것임에도 불구하고 ANE를 지원하지 못함
-
Snapdragon X 노트북 출시 당시 NPU가 LLM에 사용될 것이라는 주장이 있었음
- Qualcomm의 주장을 믿었으나, 실제로는 CPU에서만 모델이 실행됨
- NPU는 작은 모델에 대해 전력 효율적일 뿐, 큰 모델에는 적합하지 않음
- Vulkan 지원이 유일한 희망임
-
신경 엔진이 낭비된 실리콘이라고 느꼈음
- GPU 코어를 더 추가하고 필요에 따라 신경 처리 API를 GPU로 전환할 수 있음
- 다른 의견이 있다면 배우고 싶음
-
주요 이점은 전력 사용량이 크게 낮다는 것임
- M1 Max와 M4 Pro에서 벤치마크 결과, GPU는 더 빠르지만 전력 소모가 큼
- ANE 모델은 512 토큰으로 제한되어 있어 아직 생산에 사용하기 어려움
-
README에 가장 중요한 정보가 없음
- 동일한 양자화에서 llama.cpp / MLX와 비교하여 얼마나 많은 토큰/초가 가능한지 궁금함
- 주요 개선이 있을 때만 기본 플랫폼을 전환할 가치가 있음
-
이 기술의 비결이 무엇인지 알아내려 함
- coremltools에 의존하는 것이 핵심인지, 다른 중요한 기술이 있는지 궁금함
-
Apple의 통합 메모리가 여러 GPU가 필요한 큰 모델을 실행할 수 있는 충분한 RAM을 제공함
-
coreml이 ANE를 활용하는지 궁금함
- coreml에서 하위 수준 접근이 필요한 병목 현상이 있는지 궁금함
-
M 시리즈 MacBook에서 추론 속도에 대한 성능 이점이 있는지 궁금함
- 다른 플랫폼(iOS 등)에서 추론을 작동시키는 것이 주요 목표인지 궁금함
- 성능 이점이 있다면 Ollama와의 토큰/초 비교를 보고 싶음
-
Apple의 ANE에 대한 엄격한 통제가 놀라움
- 사람들이 실제로 사용할 수 있는 날이 오길 바람
- 회사들이 통제를 유지하기 위해 기술을 숨기는지, 아니면 실제로 큰 기술적 이유가 있는지 궁금함