2P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • Apple Neural Engine(ANE) 에서 실행 가능한 LLM 추론 파이프라인을 제공
  • Hugging Face 모델을 기반으로 Swift/C++ 기반 앱이나 iOS/macOS 앱에서 온디바이스 추론이 가능하게 함
  • 최신인 0.3.0 Alpha는 Hugging Face 모델을 CoreML 형식으로 변환하는 도구, Swift 기반 추론 CLI 구현체, iOS/macOS 앱 샘플, Python 테스트 코드, 벤치마크 툴을 포함
  • LLaMA 3.2 (1B / 8B) 모델 및 Distilled DeepSeek R1 8B/DeepHermes 3B 및 8B 지원, 향후 더 다양한 모델 아키텍처로 확장 예정
  • Hugging Face 모델을 ANE용으로 변환할 수 있는 유연하고 쉬운 프레임워크 제공이 목표
Hacker News 의견
  • Apple이 ANE 최적화 모델로 "최대 10배 빠르고 14배 낮은 메모리 소비"를 주장한 것에 대해 후속 조치가 있었는지 궁금함

    • MLX와 llama.cpp는 ANE를 지원하지 않음
    • llama.cpp는 이 아이디어를 탐색 중임
    • MLX는 Apple이 만든 것임에도 불구하고 ANE를 지원하지 못함
  • Snapdragon X 노트북 출시 당시 NPU가 LLM에 사용될 것이라는 주장이 있었음

    • Qualcomm의 주장을 믿었으나, 실제로는 CPU에서만 모델이 실행됨
    • NPU는 작은 모델에 대해 전력 효율적일 뿐, 큰 모델에는 적합하지 않음
    • Vulkan 지원이 유일한 희망임
  • 신경 엔진이 낭비된 실리콘이라고 느꼈음

    • GPU 코어를 더 추가하고 필요에 따라 신경 처리 API를 GPU로 전환할 수 있음
    • 다른 의견이 있다면 배우고 싶음
  • 주요 이점은 전력 사용량이 크게 낮다는 것임

    • M1 Max와 M4 Pro에서 벤치마크 결과, GPU는 더 빠르지만 전력 소모가 큼
    • ANE 모델은 512 토큰으로 제한되어 있어 아직 생산에 사용하기 어려움
  • README에 가장 중요한 정보가 없음

    • 동일한 양자화에서 llama.cpp / MLX와 비교하여 얼마나 많은 토큰/초가 가능한지 궁금함
    • 주요 개선이 있을 때만 기본 플랫폼을 전환할 가치가 있음
  • 이 기술의 비결이 무엇인지 알아내려 함

    • coremltools에 의존하는 것이 핵심인지, 다른 중요한 기술이 있는지 궁금함
  • Apple의 통합 메모리가 여러 GPU가 필요한 큰 모델을 실행할 수 있는 충분한 RAM을 제공함

  • coreml이 ANE를 활용하는지 궁금함

    • coreml에서 하위 수준 접근이 필요한 병목 현상이 있는지 궁금함
  • M 시리즈 MacBook에서 추론 속도에 대한 성능 이점이 있는지 궁금함

    • 다른 플랫폼(iOS 등)에서 추론을 작동시키는 것이 주요 목표인지 궁금함
    • 성능 이점이 있다면 Ollama와의 토큰/초 비교를 보고 싶음
  • Apple의 ANE에 대한 엄격한 통제가 놀라움

    • 사람들이 실제로 사용할 수 있는 날이 오길 바람
    • 회사들이 통제를 유지하기 위해 기술을 숨기는지, 아니면 실제로 큰 기술적 이유가 있는지 궁금함