이 소식은 예전에 llama.c가 처음 나왔을 때 로컬 실행이 가능해졌다고 모두가 흥분하던 시절을 떠올리게 함
오래된 Android 폰(LineageOS)에 Termux를 설치하고, 그 안에서 Ollama와 작은 모델을 돌려봤음. 성능은 끔찍했지만 실행은 됨
예전에 Galaxy Note에 Linux Deploy로 비트코인 채굴기를 직접 빌드해 돌려본 기억이 남. 성능은 형편없었지만, 주머니 속에 완전한 컴퓨터를 넣은 기분이었음. Nokia 시절엔 브라우저 JS 외엔 아무것도 실행 못 했는데, Android는 진짜 해킹 가능한 플랫폼이었음
참고로 내 Pixel 8은 Qwen3.5 4B 모델을 초당 2토큰 속도로 돌림. PocketPal 앱에서는 잘 되는데, Cactus 앱은 작동하지 않았음
Qwen의 MoE 모델은 활성 상태가 2B 수준으로 줄면 성능이 급격히 저하됨. 실제 추론 시 수십 배 적은 파라미터만 쓰는데, 그걸 400B 모델이라 부르는 건 무의미함
“이 정도 성능의 모델이 초당 100토큰 속도로 돌아가려면 얼마나 걸릴까?”라는 질문이 있음
유일한 방법은 모델을 하드웨어에 직접 내장하는 것임. 실제로 이 블로그 글에 그런 칩이 소개되어 있지만, 크기가 커서 스마트폰에는 들어가지 않음
스마트폰에서는 이런 대형 모델을 돌릴 가치가 없음. 특정 용도에 맞게 소형 모델을 파인튜닝하는 게 더 빠르고 정확함
Liquid AI의 Apollo (LFM2) 모델은 폰에서도 꽤 빠르게 동작하며, 검색 결과 요약이나 수학 문제 풀이 같은 작업에 유용함
현실적으로는 불가능하다고 봄. 공학적으로 해결책이 없음
아마 15~20년은 걸릴 것 같음. 지금 폰에서 이 모델이 “돌아간다”는 건 기술적으로만 맞는 말임. 실제로는 RAM 용량과 메모리 대역폭이 턱없이 부족함. SSD를 이용한 데모는 가능하지만, 실용적이지 않음. 결국 새로운 알고리즘과 맞춤형 칩 설계가 필요함. 현재의 Transformer 구조로는 한계가 명확함
anemll을 팔로우하지 않았다면, 그가 iPhone용 OpenClaw도 구동 가능한 버전을 공개했다는 점을 알아두면 좋음.
하드웨어와 모델이 발전하면서 모바일 AI의 미래는 꽤 밝아 보임
Hacker News 의견들
SSD에서 GPU로 직접 스트리밍하는 방식이 혹시 Apple의 2023년 논문 LLM in a Flash에 기반한 것인지 궁금함
꿈에서 모두가 초지능 AI를 주머니에 넣고 다녔는데, 결국 doomscrolling과 catfishing만 하다가 세상이 멸망하는 장면을 봤음
내 iPad Air(M2)가 로컬 LLM을 꽤 잘 돌리지만, 몇 초 만에 과열되고 바로 쓰로틀링이 걸림
Qwen3.5-397B-A17B는 실제로는 17B 모델처럼 동작함. MoE 부분을 생략한 제목은 과장 광고에 불과함.
양자화(quantization)도 일종의 치트 코드라서, 언젠가 누군가는 1-bit 양자화 모델을 “대형 모델”이라 주장할지도 모름
“400B 모델이라지만 MoE 구조라면 실제 활성 파라미터는 얼마나 되나?”라는 의문이 있음
이 소식은 예전에 llama.c가 처음 나왔을 때 로컬 실행이 가능해졌다고 모두가 흥분하던 시절을 떠올리게 함
오래된 Android 폰(LineageOS)에 Termux를 설치하고, 그 안에서 Ollama와 작은 모델을 돌려봤음. 성능은 끔찍했지만 실행은 됨
Qwen의 MoE 모델은 활성 상태가 2B 수준으로 줄면 성능이 급격히 저하됨. 실제 추론 시 수십 배 적은 파라미터만 쓰는데, 그걸 400B 모델이라 부르는 건 무의미함
“이 정도 성능의 모델이 초당 100토큰 속도로 돌아가려면 얼마나 걸릴까?”라는 질문이 있음
anemll을 팔로우하지 않았다면, 그가 iPhone용 OpenClaw도 구동 가능한 버전을 공개했다는 점을 알아두면 좋음.
하드웨어와 모델이 발전하면서 모바일 AI의 미래는 꽤 밝아 보임