GN⁺ 2024-10-17 | parent | ★ favorite | on: AI PC의 AI 성능 부족: CPU가 NPU를 능가(github.com/usefulsensors)
Hacker News 의견
  • CPU와 GPU의 성능 차이가 작음. onnxruntime의 문제일 가능성 있음. NPU는 속도보다는 저전력 소비에 중점이 있음

    • NPU는 AI 연산을 CPU에서 분리하여 SoC의 일부로 사용됨
    • CPU, NPU, GPU의 전력 소비를 무한 루프에서 측정하면 NPU가 가장 낮을 것으로 예상됨
    • NPU가 많은 실리콘 면적을 차지하므로 제대로 사용되지 않으면 아쉬움
  • Apple Neural Engine은 CPU나 GPU보다 훨씬 빠름

    • 모델 아키텍처, 변환, 튜닝에 따라 성능이 달라짐
    • XCode는 모델의 실행 시간을 측정하는 도구를 제공함
    • ML 프레임워크/런타임은 모든 연산자를 구현하지 않을 수 있음
  • NPU는 작은 모델을 저전력으로 실행하는 것이 목적임

    • NPU는 최적화된 모델을 위한 것으로, 작은 작업을 수행함
    • Windows에서는 전체 화면 OCR 등을 실행할 수 있음
  • NPU에 모델을 배포하려면 프로파일 기반 최적화가 필요함

    • CPU에서 잘 작동하는 모델도 NPU에서는 실망스러운 결과를 낼 수 있음
  • GitHub의 설명이 블로그보다 더 유익함

    • int8 matmul 실행 시 onnx 성능은 약 0.6TF임
  • Qualcomm은 NPU에 직접 접근을 허용하지 않음

    • 변환 도구가 최적화를 놓칠 수 있음
    • NPU는 작은 ML 모델과 빠른 함수 근사에 적합함
  • Qualcomm SNPE SDK 사용 가능성 있음

    • Hexagon SDK가 제대로 작동하는지 궁금함
  • 이 글은 특정 NPU, 특정 벤치마크, 특정 라이브러리와 프레임워크에 관한 것임

    • 따라서 일반적인 결론을 내리기 어려움