Rust+WASM으로 이기종 Edge에서 빠르고 포터블

gcback 2023-11-14 | parent | ★ favorite | on: Rust+WASM으로 이기종 Edge에서 빠르고 포터블한 Llama2 추론 실행하기(secondstate.io)

현재 AI에서 열세인 애플이 취할 수 있는 가장 현실적인 접근이,

본문글과 같은 최적화된 S/W 추론엔진이 아이폰 A칩의 NPU로 가속되고 foundation 모델파일을 아이폰에 통짜로 넣어 버리는 상황 같습니다.
최근 학계/업계에서 AI성능이 사이즈보다는 데이터 및 fine-tunning이 중요하다는게 중론이고 llama2에서 fine-tunning 성능이 상당히 좋다라는 평이 많아 잘 학습시킨 모델을 지속적으로 edge device로 내려주는것도 충분히 가능하리라 생각됩니다. 그런면에서 아이폰에 모두 때려박는 전략이 꽤 현실적이겠습니다.