Hypura – 애플 실리콘용 저장 계층 인식 LLM

▲

GN⁺ 1달전 | parent | ★ favorite | on: Hypura – 애플 실리콘용 저장 계층 인식 LLM 추론 스케줄러(github.com/t8)

Hacker News 의견들

유지보수자에게 제안하고 싶음. 현재 비교표에는 Qwen 2.5 14B, Mixtral 8x7B, Llama 3.3 70B 같은 오래된 모델이 포함되어 있음
최근에는 Apple 하드웨어에서 Qwen 3.5 MoE 모델이 놀라운 성능을 보인다는 보고가 많음
Simon Willison의 글을 참고하면 좋겠음
가능하다면 Kimi K2.5 (1T 파라미터) 모델도 표에 추가되면 좋겠음
관련 트윗: seikixtc, danpacary
- 공유해줘서 고마움. 혹시 Hypura로 직접 벤치마크를 돌릴 의향이 있다면 결과를 통계에 병합하겠음. 아니면 내 todo 리스트에 추가해두겠음
- Simon, 약간 다른 얘기지만 당신의 사이트가 잠시 다운되어 있었음
  Heroku 관련 오류 메시지가 떴는데, 지금은 다시 정상 작동함
  이 글을 보려고 들어갔는데, litellm 관련 글도 이미 작성하셨더군요. 잘 읽었음
- Kimi 예시에서 토큰 속도(metric) 가 빠져 있는 점이 아쉬움
로컬 작업에서는 초당 1토큰 미만 속도라도 백그라운드 작업이라면 충분히 쓸 만함
“즉시 종료”와 “하룻밤에 완료”의 차이는 여전히 의미 있는 성능 도약임
실제로는 읽기 패턴이 얼마나 순차적(sequential) 인지가 중요함
NVMe는 순차 읽기 시 5–7GB/s지만, 랜덤 읽기에서는 500MB/s 수준으로 떨어짐
1T 모델의 경우 fp16 기준으로 한 번의 forward pass에 2TB를 스트리밍해야 하므로, 이론상 토큰당 300초 이상 걸림
상호작용용으로는 부적합하지만 배치 추론(batch inference) 에는 가능성이 있음
- M1 Max에서 4K 랜덤 읽기(QD=1)는 약 65MB/s 수준임
- 동의함. 이건 실용보다는 POC(Proof of Concept) 에 가까움
  하지만 작은 MoE 모델에서는 초당 여러 토큰을 생성할 수 있어 실제로 쓸 만함
- MoE 모델의 핵심은 희소 활성화(sparse activation) 임
  모든 2TB를 읽는 게 아니라 일부 전문가 레이어만 접근함
  각 레이어가 수 MiB 단위라 NVMe 접근 효율도 나쁘지 않음
“1T 파라미터 모델”이 어디서 나온 건지 궁금했음. 리포에는 70B 이하 모델만 보임
- 가능성 차원에서 언급한 것임. 하지만 성능이 너무 느려서 특수한 장기 작업 외에는 실용적이지 않음
  현실적인 모델은 작지만 초당 여러 토큰을 생성할 수 있는 MoE 계열임
- 제목이 과장된 감이 있음. 결국 중요한 건 속도인데, 그 부분에 대한 정보가 없음
MoE의 포인트는 희소 활성화로 인해 2TB 전체를 읽지 않는다는 것임
하지만 접근 패턴이 랜덤화되어 NVMe에는 최악의 조건이 됨
에이전트 추론처럼 지연시간(latency) 이 중요한 작업에서는 이 부분이 핵심임
Intel Optane이 무덤에서 뒤척일 듯한 상황임
- Memristor도 10년 전엔 곧 상용화될 것처럼 보였는데, 지금은 완전히 사라졌음
- 아직 새 Optane 4개를 보관 중임. 농담이지만 진짜 있음
  다만 실제로는 NVMe보다 빠르지 않음. 병렬 읽기/쓰기를 지원하는 소프트웨어에서는 차이가 거의 없음
- Intel이 좋은 걸 만들다 중간에 포기하는 건 이제 익숙함
  그래도 RAID 0으로 4개 묶으면 PCIe 16x 대역폭을 꽉 채울 수 있을 듯
- pmem 언급
소비자용 Mac 하드웨어는 빠른 통합 메모리와 NVMe를 갖췄지만 용량이 제한적임
32GB M1 Max로 40GB 모델을 로드하면 스왑이 폭주하고 결국 panic 상태가 됨
macOS에는 Linux식 OOM killer가 없고, 단순히 swap 공간이 부족해질 뿐임
“메모리를 최대한 많이” 확보하는 것도 중요하지만, 대역폭(bandwidth) 이 더 큰 변수임
M4 Pro는 273GB/s, M4 Max는 546GB/s, M4 Ultra는 819GB/s
모델이 메모리에 들어간 뒤에는 대역폭이 토큰 속도를 결정함
Hypura 기준으로는 M4 Max가 sweet spot임. 64GB로 70B 모델(Q4)을 여유 있게 돌릴 수 있고, Pro 대비 2배 속도로 생성 가능함
이 프로젝트는 사실상 스마트 스왑 메모리처럼 작동함
NVMe를 과도하게 쓰지 않도록 조절하는 점이 흥미로움
다만 실제로 NVMe에 부하가 많이 걸리면 수명 단축이 우려됨
- “NVMe에 부하를 준다”는 표현이 낯설음
  SSD는 쓰기 횟수에 따라 셀 수명이 줄긴 하지만, 읽기 부하로 컨트롤러가 손상되는 일은 거의 없음
  만약 그렇다면 시스템에 다른 문제가 있는 것임
이 프로젝트를 이전 실험들, 또 다른 시도와 비교하면 좋겠음
이번 것은 mmap 기반이라 오버헤드가 크다는 보고가 있었음
- 해당 코드는 LLM이 작성한 것이라 신뢰성은 낮음
- 게다가 이번 구현은 강한 양자화(quantization) 를 사용하지 않아 품질 저하가 적음