iPhone 17 Pro에서 400B LLM 실행하기

(twitter.com/anemll)

4P by GN⁺ 17시간전 | ★ favorite | 댓글 1개

iPhone 17 Pro에서 4000억 파라미터 규모의 LLM을 구동, 속도는 초당 0.6토큰 수준
모델은 Mixture of Experts(MoE) 구조로, 실제 활성화되는 가중치는 약 50억 파라미터
4bit 양자화 버전으로 재구성하였으나 매우 느림
GPU·CPU RAM 이중 활용과 SSD 스트리밍 로딩 방식을 사용
Flash-Moe 를 포크하였으며 Anemll/flash-moe (iOS-App 브랜치)에 공개

▲

GN⁺ 17시간전 [-]

Hacker News 의견들

SSD에서 GPU로 직접 스트리밍하는 방식이 혹시 Apple의 2023년 논문 LLM in a Flash에 기반한 것인지 궁금함
- 맞음. 관련 세부 내용을 내 블로그 글에 정리해둠
- 비슷한 접근이 최근 이 HN 스레드에서도 소개되었음. 다만 iPhone Pro는 RAM이 12GB로 제한되어 있어서 모델의 활성 부분을 담기엔 부족함. Intel Optane 같은 내구성 좋은 스토리지를 쓸 수도 있지만, 전력 소모가 커서 모바일에는 부적합함
- 이 방식은 Cerebus가 weight를 스트리밍하는 구조와 크게 다르지 않음
꿈에서 모두가 초지능 AI를 주머니에 넣고 다녔는데, 결국 doomscrolling과 catfishing만 하다가 세상이 멸망하는 장면을 봤음
- 현대판 노스트라다무스 같다는 생각이 듦
내 iPad Air(M2)가 로컬 LLM을 꽤 잘 돌리지만, 몇 초 만에 과열되고 바로 쓰로틀링이 걸림
- 누군가 iPad나 폰용 액체 냉각 시스템을 만든 적이 있을지 궁금함. 기기 뒷면에 밀착해 냉각수를 순환시키는 밀폐형 장치 같은 것 말임
Qwen3.5-397B-A17B는 실제로는 17B 모델처럼 동작함. MoE 부분을 생략한 제목은 과장 광고에 불과함.
양자화(quantization)도 일종의 치트 코드라서, 언젠가 누군가는 1-bit 양자화 모델을 “대형 모델”이라 주장할지도 모름
- 실제로는 약 80B 모델처럼 동작하고, 세계 지식 수준은 400B 모델에 가까움. 모델 구조부터 양자화, 첫 토큰 생성 시간까지 모두 공개되어 있어서 오해의 여지는 없음. 이런 시도는 일반 사용자 대상이라기보다 코드 골프 같은 기술 실험에 가까움
“400B 모델이라지만 MoE 구조라면 실제 활성 파라미터는 얼마나 되나?”라는 의문이 있음
- Qwen3.5-397B-A17B는 17B 파라미터가 활성 상태임. 관련 코드는 flash-moe iOS App 저장소에서 볼 수 있음
- 요즘 대부분의 회사가 MoE 구조를 채택하고 있음
이 소식은 예전에 llama.c가 처음 나왔을 때 로컬 실행이 가능해졌다고 모두가 흥분하던 시절을 떠올리게 함
오래된 Android 폰(LineageOS)에 Termux를 설치하고, 그 안에서 Ollama와 작은 모델을 돌려봤음. 성능은 끔찍했지만 실행은 됨
- 예전에 Galaxy Note에 Linux Deploy로 비트코인 채굴기를 직접 빌드해 돌려본 기억이 남. 성능은 형편없었지만, 주머니 속에 완전한 컴퓨터를 넣은 기분이었음. Nokia 시절엔 브라우저 JS 외엔 아무것도 실행 못 했는데, Android는 진짜 해킹 가능한 플랫폼이었음
- 참고로 내 Pixel 8은 Qwen3.5 4B 모델을 초당 2토큰 속도로 돌림. PocketPal 앱에서는 잘 되는데, Cactus 앱은 작동하지 않았음
Qwen의 MoE 모델은 활성 상태가 2B 수준으로 줄면 성능이 급격히 저하됨. 실제 추론 시 수십 배 적은 파라미터만 쓰는데, 그걸 400B 모델이라 부르는 건 무의미함
“이 정도 성능의 모델이 초당 100토큰 속도로 돌아가려면 얼마나 걸릴까?”라는 질문이 있음
- 유일한 방법은 모델을 하드웨어에 직접 내장하는 것임. 실제로 이 블로그 글에 그런 칩이 소개되어 있지만, 크기가 커서 스마트폰에는 들어가지 않음
- 스마트폰에서는 이런 대형 모델을 돌릴 가치가 없음. 특정 용도에 맞게 소형 모델을 파인튜닝하는 게 더 빠르고 정확함
- Liquid AI의 Apollo (LFM2) 모델은 폰에서도 꽤 빠르게 동작하며, 검색 결과 요약이나 수학 문제 풀이 같은 작업에 유용함
- 현실적으로는 불가능하다고 봄. 공학적으로 해결책이 없음
- 아마 15~20년은 걸릴 것 같음. 지금 폰에서 이 모델이 “돌아간다”는 건 기술적으로만 맞는 말임. 실제로는 RAM 용량과 메모리 대역폭이 턱없이 부족함. SSD를 이용한 데모는 가능하지만, 실용적이지 않음. 결국 새로운 알고리즘과 맞춤형 칩 설계가 필요함. 현재의 Transformer 구조로는 한계가 명확함
anemll을 팔로우하지 않았다면, 그가 iPhone용 OpenClaw도 구동 가능한 버전을 공개했다는 점을 알아두면 좋음.
하드웨어와 모델이 발전하면서 모바일 AI의 미래는 꽤 밝아 보임

답변달기