1P by GN⁺ 2시간전 | ★ favorite | 댓글 1개
  • iPhone 17 Pro에서 4000억 파라미터 규모의 LLM을 구동, 속도는 초당 0.6토큰 수준
  • 모델은 Mixture of Experts(MoE) 구조로, 실제 활성화되는 가중치는 약 50억 파라미터
  • 4bit 양자화 버전으로 재구성하였으나 매우 느림
  • GPU·CPU RAM 이중 활용SSD 스트리밍 로딩 방식을 사용
  • Flash-Moe 를 포크하였으며 Anemll/flash-moe (iOS-App 브랜치)에 공개
Hacker News 의견들
  • SSD에서 GPU로 직접 스트리밍하는 방식이 혹시 Apple의 2023년 논문 LLM in a Flash에 기반한 것인지 궁금함

    • 맞음. 관련 세부 내용을 내 블로그 글에 정리해둠
    • 비슷한 접근이 최근 이 HN 스레드에서도 소개되었음. 다만 iPhone Pro는 RAM이 12GB로 제한되어 있어서 모델의 활성 부분을 담기엔 부족함. Intel Optane 같은 내구성 좋은 스토리지를 쓸 수도 있지만, 전력 소모가 커서 모바일에는 부적합함
    • 이 방식은 Cerebus가 weight를 스트리밍하는 구조와 크게 다르지 않음
  • 꿈에서 모두가 초지능 AI를 주머니에 넣고 다녔는데, 결국 doomscrollingcatfishing만 하다가 세상이 멸망하는 장면을 봤음

    • 현대판 노스트라다무스 같다는 생각이 듦
  • 내 iPad Air(M2)가 로컬 LLM을 꽤 잘 돌리지만, 몇 초 만에 과열되고 바로 쓰로틀링이 걸림

    • 누군가 iPad나 폰용 액체 냉각 시스템을 만든 적이 있을지 궁금함. 기기 뒷면에 밀착해 냉각수를 순환시키는 밀폐형 장치 같은 것 말임
  • Qwen3.5-397B-A17B는 실제로는 17B 모델처럼 동작함. MoE 부분을 생략한 제목은 과장 광고에 불과함.
    양자화(quantization)도 일종의 치트 코드라서, 언젠가 누군가는 1-bit 양자화 모델을 “대형 모델”이라 주장할지도 모름

    • 실제로는 약 80B 모델처럼 동작하고, 세계 지식 수준은 400B 모델에 가까움. 모델 구조부터 양자화, 첫 토큰 생성 시간까지 모두 공개되어 있어서 오해의 여지는 없음. 이런 시도는 일반 사용자 대상이라기보다 코드 골프 같은 기술 실험에 가까움
  • “400B 모델이라지만 MoE 구조라면 실제 활성 파라미터는 얼마나 되나?”라는 의문이 있음

    • Qwen3.5-397B-A17B는 17B 파라미터가 활성 상태임. 관련 코드는 flash-moe iOS App 저장소에서 볼 수 있음
    • 요즘 대부분의 회사가 MoE 구조를 채택하고 있음
  • 이 소식은 예전에 llama.c가 처음 나왔을 때 로컬 실행이 가능해졌다고 모두가 흥분하던 시절을 떠올리게 함

  • 오래된 Android 폰(LineageOS)에 Termux를 설치하고, 그 안에서 Ollama와 작은 모델을 돌려봤음. 성능은 끔찍했지만 실행은 됨

    • 예전에 Galaxy Note에 Linux Deploy로 비트코인 채굴기를 직접 빌드해 돌려본 기억이 남. 성능은 형편없었지만, 주머니 속에 완전한 컴퓨터를 넣은 기분이었음. Nokia 시절엔 브라우저 JS 외엔 아무것도 실행 못 했는데, Android는 진짜 해킹 가능한 플랫폼이었음
    • 참고로 내 Pixel 8은 Qwen3.5 4B 모델을 초당 2토큰 속도로 돌림. PocketPal 앱에서는 잘 되는데, Cactus 앱은 작동하지 않았음
  • Qwen의 MoE 모델은 활성 상태가 2B 수준으로 줄면 성능이 급격히 저하됨. 실제 추론 시 수십 배 적은 파라미터만 쓰는데, 그걸 400B 모델이라 부르는 건 무의미함

  • “이 정도 성능의 모델이 초당 100토큰 속도로 돌아가려면 얼마나 걸릴까?”라는 질문이 있음

    • 유일한 방법은 모델을 하드웨어에 직접 내장하는 것임. 실제로 이 블로그 글에 그런 칩이 소개되어 있지만, 크기가 커서 스마트폰에는 들어가지 않음
    • 스마트폰에서는 이런 대형 모델을 돌릴 가치가 없음. 특정 용도에 맞게 소형 모델을 파인튜닝하는 게 더 빠르고 정확함
    • Liquid AI의 Apollo (LFM2) 모델은 폰에서도 꽤 빠르게 동작하며, 검색 결과 요약이나 수학 문제 풀이 같은 작업에 유용함
    • 현실적으로는 불가능하다고 봄. 공학적으로 해결책이 없음
    • 아마 15~20년은 걸릴 것 같음. 지금 폰에서 이 모델이 “돌아간다”는 건 기술적으로만 맞는 말임. 실제로는 RAM 용량과 메모리 대역폭이 턱없이 부족함. SSD를 이용한 데모는 가능하지만, 실용적이지 않음. 결국 새로운 알고리즘맞춤형 칩 설계가 필요함. 현재의 Transformer 구조로는 한계가 명확함
  • anemll을 팔로우하지 않았다면, 그가 iPhone용 OpenClaw도 구동 가능한 버전을 공개했다는 점을 알아두면 좋음.
    하드웨어와 모델이 발전하면서 모바일 AI의 미래는 꽤 밝아 보임