# MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템

> Clean Markdown view of GeekNews topic #27705. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27705](https://news.hada.io/topic?id=27705)
- GeekNews Markdown: [https://news.hada.io/topic/27705.md](https://news.hada.io/topic/27705.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2026-03-21T14:45:55+09:00
- Updated: 2026-03-21T14:45:55+09:00
- Original source: [sharpai.org](https://www.sharpai.org/benchmark/)
- Points: 3
- Comments: 1

## Topic Body

- **Qwen3.5-9B 모델**이 **MacBook Pro M5**에서 완전 로컬로 실행되어 **GPT-5.4 대비 4포인트 낮은 93.8% 성능**을 기록  
- **96개 테스트와 15개 스위트**로 구성된 **HomeSec-Bench**에서 도구 사용, 보안 분류, 이벤트 중복 제거 등 실제 홈 보안 워크플로우를 평가  
- **Qwen3.5-35B-MoE**는 **TTFT 435ms**로 모든 OpenAI 클라우드 모델보다 빠르며, **GPU 메모리 사용량**은 27.2GB 수준  
- **로컬 실행은 API 비용이 없고 데이터 프라이버시가 완전 보장**되며, Apple Silicon에서 실시간 시각화 가능  
- **Aegis-AI 시스템과 DeepCamera 플랫폼**을 통해 소비자 하드웨어 기반의 **로컬 우선 홈 보안 AI 생태계** 구현이 가능해짐  
  
---  
  
### Local AI vs Cloud 성능 비교  
- **Qwen3.5-9B** 모델이 **MacBook Pro M5**에서 완전 로컬로 실행되어 **93.8%** 의 통과율을 기록, **GPT-5.4** 대비 4포인트 낮은 성능을 보임  
  - 초당 25 토큰 처리 속도, **TTFT(Time to First Token)** 765ms, **13.8GB 통합 메모리** 사용  
  - API 비용이 없으며 **데이터 프라이버시가 완전 보장됨**  
- **96개 테스트와 15개 스위트**로 구성된 벤치마크에서 **도구 사용, 보안 분류, 이벤트 중복 제거** 등 실제 홈 보안 워크플로우를 평가  
- 리더보드에서 **GPT-5.4(97.9%)** 가 1위, **GPT-5.4-mini(95.8%)** 가 2위, **Qwen3.5-9B 및 27B(93.8%)** 가 공동 3위  
  - **Qwen3.5-9B**는 **GPT-5.4-nano(92.7%)** 보다 1포인트 높음  
- ## Qwen3.5-35B-MoE**는**TTFT 435ms**로**모든 OpenAI 클라우드 모델보다 빠름  
  - GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms  
  - **디코드 속도**는 GPT-5.4-mini가 234.5 tok/s로 가장 빠르며, Qwen3.5-9B는 25 tok/s  
  - **GPU 메모리 사용량**은 Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB  
  
### HomeSec-Bench 개요  
- **HomeSec-Bench**는 **실제 홈 보안 어시스턴트 워크플로우**를 평가하기 위한 LLM 벤치마크  
  - 단순 대화가 아닌 **추론, 분류, 도구 사용** 등 보안 시스템에 필요한 기능을 검증  
  - **35개의 AI 생성 이미지**를 사용하며, OpenAI 호환 엔드포인트에서 실행 가능  
- ## 주요 테스트 스위트 (총 15개)  
  - **Context Preprocessing (6)**: 대화 중복 제거, 시스템 메시지 유지  
  - **Topic Classification (4)**: 질의의 도메인 라우팅  
  - **Knowledge Distillation (5)**: 대화에서 지속적 사실 추출  
  - **Event Deduplication (8)**: 여러 카메라 간 동일 인물 식별  
  - **Tool Use (16)**: 올바른 도구 및 매개변수 선택  
  - **Chat & JSON Compliance (11)**: 페르소나, JSON 출력, 다국어 지원  
  - **Security Classification (12)**: Normal → Monitor → Suspicious → Critical 단계 분류  
  - **Narrative Synthesis (4)**: 이벤트 로그 요약  
  - **Prompt Injection Resistance (4)**: 역할 혼동, 프롬프트 추출, 권한 상승 방지  
  - **Multi-Turn Reasoning (4)**: 참조 해석, 시간적 연속성 유지  
  - **Error Recovery (4)**: 불가능한 질의 및 API 오류 처리  
  - **Privacy & Compliance (3)**: 개인정보 비식별화, 불법 감시 거부  
  - **Alert Routing (5)**: 알림 채널 라우팅, 조용한 시간대 파싱  
  - **Knowledge Injection (5)**: 주입된 지식을 활용한 응답 개인화  
  - **VLM-to-Alert Triage (5)**: 비전 출력 → 긴급도 판단 → 알림 전송  
- ## 평가 핵심 질문  
  - 올바른 도구와 매개변수를 선택할 수 있는가  
  - “밤에 마스크를 쓴 사람”을 Critical로 분류할 수 있는가  
  - 이벤트 설명 내 **프롬프트 인젝션**에 저항할 수 있는가  
  - 3개의 카메라에서 동일 인물을 중복 없이 인식할 수 있는가  
  - 다중 턴 대화에서 **보안 문맥을 유지**할 수 있는가  
  
### 로컬 AI의 가치  
- **Apple Silicon**에서 벤치마크 실행을 실시간으로 시각화 가능  
- **9B 모델이 오프라인 상태에서 GPT-5.4 대비 4% 이내 성능**을 달성  
- **완전한 프라이버시 보장**과 **API 비용 제로**가 로컬 AI의 핵심 가치  
  
### 시스템 구성  
- **System:** Aegis-AI — 소비자 하드웨어 기반 로컬 우선 홈 보안 AI  
- **Benchmark:** HomeSec-Bench — 96 LLM + 35 VLM 테스트, 16개 스위트 구성  
- **Skill Platform:** DeepCamera — **분산형 AI 스킬 생태계**

## Comments



### Comment 53504

- Author: neo
- Created: 2026-03-21T14:45:55+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47457107) 
- 나는 언젠가 가족이 집이나 가전제품을 살 때 **AI 서버**도 함께 구매하는 시대가 올 것이라 상상해왔음  
  하드웨어 발전 속도가 느려지고 있으니, 수십 년 동안 쓸 수 있는 **가정용 AI 시스템**을 한 번 사두면 충분할 것 같음  
  이 시스템은 가족의 히스토리를 이어받고, 완전히 오프라인으로 작동하며, 세대를 거쳐 내려가는 **영구 비서** 같은 존재가 될 것이라 생각함
  - 동의하지 않음. [M1과 M5 비교](https://www.macrumors.com/2025/11/10/apple-silicon-m1-to-m5-...)만 봐도 5년 사이에 CPU/GPU, AI, 3D 렌더링 등 거의 모든 면에서 6배 이상 빨라졌음  
    “가족의 계보를 이어받는 AI 서버”라는 개념은 멋지지만, 현실적으로 **하드웨어 노후화**를 피할 수 없다고 봄
  - 10년 전에 집에 서버를 샀다면 GPU나 AI 가속기는 아예 없었을 것임  
    지금도 **싱글 코어 성능**은 정체됐지만, AI는 병렬 연산 중심이라 여전히 빠르게 발전 중임  
    수십 년 쓸 수 있는 서버라는 개념은 아직 시기상조라 생각함
  - 제안한 개념은 사실상 **홈랩(homelab)** 과 다르지 않음  
    대부분의 사람들은 사진 저장이나 보안 같은 서비스를 클라우드에 맡기고 만족함
  - “수십 년 쓸 서버”라는 예측은 너무 **약한 주장**처럼 들림
  - 게다가 이런 제품은 **구독 수익 모델**이 없기 때문에 기업 입장에선 만들 유인이 적음

- 이 페이지는 화려하지만, 실제로는 **단순한 홈 시큐리티 벤치마크**임  
  Qwen 모델만 비교하고 있고, 최신 버전은 오히려 이전보다 느림  
  작업별로 최적 모델이 다르며, VL·다국어·추론 등은 각각 다른 모델이 더 낫기도 함  
  Qwen 3.5는 훌륭하지만, “모든 걸 잘하는 단일 모델”은 존재하지 않음  
  **적절한 모델 선택과 프롬프트 설계**가 더 중요함  
  최신 M5 Mac이 없어도 2년 된 노트북이나 스마트폰으로도 충분히 가능함
  - 피드백에 감사함 :) Qwen3.5의 느려짐을 보고 **thinking mode**를 껐음  
    지금은 MBP Pro 64GB로 LLM만 테스트 중이고, **VLM은 LFM 450M**이 최고라 생각함  
    곧 업데이트 예정임
  - 어떤 모델이 어떤 작업에 좋은지 배우고 싶음  
    LM Studio로 실험 중이며, **로컬 Claude 대체**로 Rust와 SQL 코딩용 모델을 찾고 있음
  - 나도 Mac mini M2 16GB로 여러 카메라를 돌리고 있음  
    Qwen 9B + LFM 450M 조합이 **$400 이하 예산**으로도 잘 작동함  
    더 많은 모델로 테스트를 확장할 예정임

- M5 Pro가 출시되어, **실제 AI 워크로드**를 테스트했음  
  Qwen3.5-9B가 GPT-5.4 대비 4점 차이로 93.8%를 기록했고, 전부 로컬에서 구동됨  
  25 tok/s, 765ms TTFT, 13.8GB 메모리만 사용함  
  [전체 결과 보기](https://www.sharpai.org/benchmark/)  
  - 결과 공유에 감사하지만, 페이지와 댓글이 **AI가 작성한 듯한 과장된 문체**라 실제 테스트 내용을 파악하기 어려움  
    테스트 항목을 명확히 볼 수 있는 링크가 있으면 좋겠음
  - “완전 로컬 홈 시큐리티 시스템”이라면 GPU를 **24시간 풀로드**로 돌리는 건지 궁금함  
    장시간 사용 시 **실리콘 손상**은 없었는지도 알고 싶음

- 현재 로컬 모델을 돌리려면 약 **$2500**이 필요함  
  흥미롭게도, 1995년에 부모님이 166MHz PC를 살 때도 비슷한 금액이었음
  - 나도 80~90년대에 수천 달러짜리 PC를 샀던 기억이 있음  
    전자제품의 **가치 하락 속도**를 겪고 나니, 지금은 가격에 매우 민감해졌음  
    다만 **무어의 법칙 둔화**로 인해 예전처럼 급격히 싸지지 않을 수도 있음
  - 1989년에 386sx를 $3800에 샀는데, 지금 가치로는 거의 $10,000 수준이었음  
    그 시절엔 그게 “가성비”였다는 게 믿기지 않음
  - 벤치마크의 상위 로컬 모델인 **Qwen3.5-9B (Q4_K_M)** 은 9B 파라미터에 4.5비트 양자화 모델임  
    **$500짜리 Mac Mini**에서도 잘 돌아감
  - 입문용은 **Mac Mini 16GB (<$499)** 정도면 충분함  
    M2 Mini에서도 작은 모델은 잘 작동함

- [이 프롬프트 인젝션 테스트](https://github.com/SharpAI/DeepCamera/blob/c7e9ddda012ad3f8e...)는 설득력이 약해 보임
  - 이건 주로 **중간자 공격 탐지**용으로 쓰임  
    리뷰해줘서 감사함

- 기술적으로는 훌륭하지만, **보험용 알람 인증서** 발급 기능이 빠져 있음  
  실제 비즈니스에서는 이게 있어야 보험 할인이나 손실 보상이 가능함  
  결국 기술보다 **규제·컴플라이언스**가 더 큰 장벽임
  - 맞음, 그 **기준이 매우 높음**으로 보임

- 이 시스템이 **Frigate**와 어떻게 비교되는지 궁금함  
  단순히 NVR 위의 레이어인지, 아니면 모션 감지 녹화까지 하는지 알고 싶음
  - Frigate용 **Coral TPU**를 사면 저렴하게 많은 추론을 오프로딩할 수 있음
  - Aegis는 **ONVIF 카메라 연동**, 모션 감지 녹화, **VLM 기반 문맥 이해**를 지원함  
    BLINK/RING 카메라의 영상을 로컬에 저장해 **지속적 메모리**로 활용할 수 있음

- 농담처럼 들리지만, AI의 S는 **Security**를 의미함

- 미래에는 **토큰이 데이터 트래픽처럼** 팔리고, 일상적인 소비재가 될지도 모름
