# ANEMLL - 애플 뉴럴 엔진에서 LLM 구동을 위한 오픈소스 프로젝트

> Clean Markdown view of GeekNews topic #20702. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20702](https://news.hada.io/topic?id=20702)
- GeekNews Markdown: [https://news.hada.io/topic/20702.md](https://news.hada.io/topic/20702.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-05-05T09:55:37+09:00
- Updated: 2025-05-05T09:55:37+09:00
- Original source: [github.com/Anemll](https://github.com/Anemll/Anemll)
- Points: 3
- Comments: 1

## Topic Body

- **Apple Neural Engine(ANE)** 에서 실행 가능한 **LLM 추론 파이프라인**을 제공  
- Hugging Face 모델을 기반으로 **Swift/C++ 기반 앱이나 iOS/macOS 앱**에서 **온디바이스 추론이 가능**하게 함  
- 최신인 **0.3.0 Alpha**는 Hugging Face 모델을 CoreML 형식으로 변환하는 도구, Swift 기반 추론 CLI 구현체, iOS/macOS 앱 샘플, Python 테스트 코드, 벤치마크 툴을 포함  
- **LLaMA 3.2 (1B / 8B)** 모델 및 Distilled DeepSeek R1 8B/DeepHermes 3B 및 8B 지원, 향후 더 다양한 모델 아키텍처로 확장 예정  
- Hugging Face 모델을 ANE용으로 변환할 수 있는 **유연하고 쉬운 프레임워크** 제공이 목표

## Comments


### Comment 38174

- Author: neo
- Created: 2025-05-05T09:55:37+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43879702) 
- Apple이 ANE 최적화 모델로 "최대 10배 빠르고 14배 낮은 메모리 소비"를 주장한 것에 대해 후속 조치가 있었는지 궁금함
  - MLX와 llama.cpp는 ANE를 지원하지 않음
  - llama.cpp는 이 아이디어를 탐색 중임
  - MLX는 Apple이 만든 것임에도 불구하고 ANE를 지원하지 못함

- Snapdragon X 노트북 출시 당시 NPU가 LLM에 사용될 것이라는 주장이 있었음
  - Qualcomm의 주장을 믿었으나, 실제로는 CPU에서만 모델이 실행됨
  - NPU는 작은 모델에 대해 전력 효율적일 뿐, 큰 모델에는 적합하지 않음
  - Vulkan 지원이 유일한 희망임

- 신경 엔진이 낭비된 실리콘이라고 느꼈음
  - GPU 코어를 더 추가하고 필요에 따라 신경 처리 API를 GPU로 전환할 수 있음
  - 다른 의견이 있다면 배우고 싶음

- 주요 이점은 전력 사용량이 크게 낮다는 것임
  - M1 Max와 M4 Pro에서 벤치마크 결과, GPU는 더 빠르지만 전력 소모가 큼
  - ANE 모델은 512 토큰으로 제한되어 있어 아직 생산에 사용하기 어려움

- README에 가장 중요한 정보가 없음
  - 동일한 양자화에서 llama.cpp / MLX와 비교하여 얼마나 많은 토큰/초가 가능한지 궁금함
  - 주요 개선이 있을 때만 기본 플랫폼을 전환할 가치가 있음

- 이 기술의 비결이 무엇인지 알아내려 함
  - coremltools에 의존하는 것이 핵심인지, 다른 중요한 기술이 있는지 궁금함

- Apple의 통합 메모리가 여러 GPU가 필요한 큰 모델을 실행할 수 있는 충분한 RAM을 제공함

- coreml이 ANE를 활용하는지 궁금함
  - coreml에서 하위 수준 접근이 필요한 병목 현상이 있는지 궁금함

- M 시리즈 MacBook에서 추론 속도에 대한 성능 이점이 있는지 궁금함
  - 다른 플랫폼(iOS 등)에서 추론을 작동시키는 것이 주요 목표인지 궁금함
  - 성능 이점이 있다면 Ollama와의 토큰/초 비교를 보고 싶음

- Apple의 ANE에 대한 엄격한 통제가 놀라움
  - 사람들이 실제로 사용할 수 있는 날이 오길 바람
  - 회사들이 통제를 유지하기 위해 기술을 숨기는지, 아니면 실제로 큰 기술적 이유가 있는지 궁금함