# iPhone 17 Pro에서 400B LLM 실행하기

> Clean Markdown view of GeekNews topic #27788. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27788](https://news.hada.io/topic?id=27788)
- GeekNews Markdown: [https://news.hada.io/topic/27788.md](https://news.hada.io/topic/27788.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-03-24T09:33:52+09:00
- Updated: 2026-03-24T09:33:52+09:00
- Original source: [twitter.com/anemll](https://twitter.com/anemll/status/2035901335984611412)
- Points: 6
- Comments: 1

## Summary

아이폰 17 Pro에서 **4000억 파라미터 LLM**을 직접 구동한 실험이 공개되었습니다. MoE 구조로 실제 활성화 파라미터는 약 50억 개에 불과하지만, **4bit 양자화와 SSD 스트리밍 로딩**을 조합해 모바일에서 거대한 모델을 실행했다는 점이 핵심입니다. 속도는 초당 0.

## Topic Body

- **iPhone 17 Pro**에서 **4000억 파라미터 규모의 LLM**을 구동, 속도는 **초당 0.6토큰** 수준  
- 모델은 **Mixture of Experts(MoE)** 구조로, 실제 활성화되는 가중치는 약 **50억 파라미터**  
- **4bit 양자화** 버전으로 재구성하였으나 매우 느림  
- **GPU·CPU RAM 이중 활용**과 **SSD 스트리밍 로딩** 방식을 사용  
- Flash-Moe 를 포크하였으며 [Anemll/flash-moe (iOS-App 브랜치)](https://github.com/Anemll/flash-moe/tree/iOS-App)에 공개

## Comments


### Comment 53685

- Author: neo
- Created: 2026-03-24T09:33:52+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47490070) 
- SSD에서 GPU로 직접 **스트리밍**하는 방식이 혹시 Apple의 2023년 논문 [*LLM in a Flash*](https://arxiv.org/abs/2312.11514)에 기반한 것인지 궁금함  
  - 맞음. 관련 세부 내용을 [내 블로그 글](https://simonwillison.net/2026/Mar/18/llm-in-a-flash/)에 정리해둠  
  - 비슷한 접근이 최근 [이 HN 스레드](https://news.ycombinator.com/item?id=47476422)에서도 소개되었음. 다만 iPhone Pro는 RAM이 12GB로 제한되어 있어서 모델의 **활성 부분**을 담기엔 부족함. Intel Optane 같은 내구성 좋은 스토리지를 쓸 수도 있지만, 전력 소모가 커서 모바일에는 부적합함  
  - 이 방식은 **Cerebus**가 weight를 스트리밍하는 구조와 크게 다르지 않음  

- 꿈에서 모두가 초지능 AI를 주머니에 넣고 다녔는데, 결국 **doomscrolling**과 **catfishing**만 하다가 세상이 멸망하는 장면을 봤음  
  - 현대판 **노스트라다무스** 같다는 생각이 듦  

- 내 iPad Air(M2)가 로컬 LLM을 꽤 잘 돌리지만, 몇 초 만에 **과열**되고 바로 **쓰로틀링**이 걸림  
  - 누군가 iPad나 폰용 **액체 냉각 시스템**을 만든 적이 있을지 궁금함. 기기 뒷면에 밀착해 냉각수를 순환시키는 밀폐형 장치 같은 것 말임  

- Qwen3.5-397B-A17B는 실제로는 17B 모델처럼 동작함. MoE 부분을 생략한 제목은 **과장 광고**에 불과함.  
  양자화(quantization)도 일종의 **치트 코드**라서, 언젠가 누군가는 1-bit 양자화 모델을 “대형 모델”이라 주장할지도 모름  
  - 실제로는 약 80B 모델처럼 동작하고, 세계 지식 수준은 400B 모델에 가까움. 모델 구조부터 양자화, **첫 토큰 생성 시간**까지 모두 공개되어 있어서 오해의 여지는 없음. 이런 시도는 일반 사용자 대상이라기보다 **코드 골프** 같은 기술 실험에 가까움  

- “400B 모델이라지만 MoE 구조라면 실제 활성 파라미터는 얼마나 되나?”라는 의문이 있음  
  - Qwen3.5-397B-A17B는 17B 파라미터가 활성 상태임. 관련 코드는 [flash-moe iOS App 저장소](https://github.com/Anemll/flash-moe/tree/iOS-App)에서 볼 수 있음  
  - 요즘 대부분의 회사가 **MoE 구조**를 채택하고 있음  

- 이 소식은 예전에 **llama.c**가 처음 나왔을 때 로컬 실행이 가능해졌다고 모두가 흥분하던 시절을 떠올리게 함  

- 오래된 Android 폰(LineageOS)에 Termux를 설치하고, 그 안에서 Ollama와 작은 모델을 돌려봤음. 성능은 끔찍했지만 **실행은 됨**  
  - 예전에 Galaxy Note에 Linux Deploy로 **비트코인 채굴기**를 직접 빌드해 돌려본 기억이 남. 성능은 형편없었지만, 주머니 속에 완전한 컴퓨터를 넣은 기분이었음. Nokia 시절엔 브라우저 JS 외엔 아무것도 실행 못 했는데, Android는 진짜 **해킹 가능한 플랫폼**이었음  
  - 참고로 내 Pixel 8은 Qwen3.5 4B 모델을 초당 2토큰 속도로 돌림. **PocketPal 앱**에서는 잘 되는데, **Cactus 앱**은 작동하지 않았음  

- Qwen의 MoE 모델은 활성 상태가 2B 수준으로 줄면 **성능이 급격히 저하**됨. 실제 추론 시 수십 배 적은 파라미터만 쓰는데, 그걸 400B 모델이라 부르는 건 무의미함  

- “이 정도 성능의 모델이 초당 100토큰 속도로 돌아가려면 얼마나 걸릴까?”라는 질문이 있음  
  - 유일한 방법은 모델을 **하드웨어에 직접 내장**하는 것임. 실제로 [이 블로그 글](https://www.anuragk.com/blog/posts/Taalas.html)에 그런 칩이 소개되어 있지만, 크기가 커서 스마트폰에는 들어가지 않음  
  - 스마트폰에서는 이런 대형 모델을 돌릴 가치가 없음. 특정 용도에 맞게 **소형 모델을 파인튜닝**하는 게 더 빠르고 정확함  
  - Liquid AI의 **Apollo (LFM2)** 모델은 폰에서도 꽤 빠르게 동작하며, 검색 결과 요약이나 수학 문제 풀이 같은 작업에 유용함  
  - 현실적으로는 불가능하다고 봄. 공학적으로 해결책이 없음  
  - 아마 15~20년은 걸릴 것 같음. 지금 폰에서 이 모델이 “돌아간다”는 건 기술적으로만 맞는 말임. 실제로는 **RAM 용량과 메모리 대역폭**이 턱없이 부족함. SSD를 이용한 데모는 가능하지만, 실용적이지 않음. 결국 **새로운 알고리즘**과 **맞춤형 칩 설계**가 필요함. 현재의 Transformer 구조로는 한계가 명확함  

- anemll을 팔로우하지 않았다면, 그가 iPhone용 **OpenClaw**도 구동 가능한 버전을 공개했다는 점을 알아두면 좋음.  
  하드웨어와 모델이 발전하면서 **모바일 AI의 미래**는 꽤 밝아 보임