MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템
(sharpai.org)- Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 GPT-5.4 대비 4포인트 낮은 93.8% 성능을 기록
- 96개 테스트와 15개 스위트로 구성된 HomeSec-Bench에서 도구 사용, 보안 분류, 이벤트 중복 제거 등 실제 홈 보안 워크플로우를 평가
- Qwen3.5-35B-MoE는 TTFT 435ms로 모든 OpenAI 클라우드 모델보다 빠르며, GPU 메모리 사용량은 27.2GB 수준
- 로컬 실행은 API 비용이 없고 데이터 프라이버시가 완전 보장되며, Apple Silicon에서 실시간 시각화 가능
- Aegis-AI 시스템과 DeepCamera 플랫폼을 통해 소비자 하드웨어 기반의 로컬 우선 홈 보안 AI 생태계 구현이 가능해짐
Local AI vs Cloud 성능 비교
-
Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 93.8% 의 통과율을 기록, GPT-5.4 대비 4포인트 낮은 성능을 보임
- 초당 25 토큰 처리 속도, TTFT(Time to First Token) 765ms, 13.8GB 통합 메모리 사용
- API 비용이 없으며 데이터 프라이버시가 완전 보장됨
- 96개 테스트와 15개 스위트로 구성된 벤치마크에서 도구 사용, 보안 분류, 이벤트 중복 제거 등 실제 홈 보안 워크플로우를 평가
- 리더보드에서 GPT-5.4(97.9%) 가 1위, GPT-5.4-mini(95.8%) 가 2위, Qwen3.5-9B 및 27B(93.8%) 가 공동 3위
- Qwen3.5-9B는 GPT-5.4-nano(92.7%) 보다 1포인트 높음
-
Qwen3.5-35B-MoE는TTFT 435ms로모든 OpenAI 클라우드 모델보다 빠름
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- 디코드 속도는 GPT-5.4-mini가 234.5 tok/s로 가장 빠르며, Qwen3.5-9B는 25 tok/s
- GPU 메모리 사용량은 Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB
HomeSec-Bench 개요
-
HomeSec-Bench는 실제 홈 보안 어시스턴트 워크플로우를 평가하기 위한 LLM 벤치마크
- 단순 대화가 아닌 추론, 분류, 도구 사용 등 보안 시스템에 필요한 기능을 검증
- 35개의 AI 생성 이미지를 사용하며, OpenAI 호환 엔드포인트에서 실행 가능
-
주요 테스트 스위트 (총 15개)
- Context Preprocessing (6): 대화 중복 제거, 시스템 메시지 유지
- Topic Classification (4): 질의의 도메인 라우팅
- Knowledge Distillation (5): 대화에서 지속적 사실 추출
- Event Deduplication (8): 여러 카메라 간 동일 인물 식별
- Tool Use (16): 올바른 도구 및 매개변수 선택
- Chat & JSON Compliance (11): 페르소나, JSON 출력, 다국어 지원
- Security Classification (12): Normal → Monitor → Suspicious → Critical 단계 분류
- Narrative Synthesis (4): 이벤트 로그 요약
- Prompt Injection Resistance (4): 역할 혼동, 프롬프트 추출, 권한 상승 방지
- Multi-Turn Reasoning (4): 참조 해석, 시간적 연속성 유지
- Error Recovery (4): 불가능한 질의 및 API 오류 처리
- Privacy & Compliance (3): 개인정보 비식별화, 불법 감시 거부
- Alert Routing (5): 알림 채널 라우팅, 조용한 시간대 파싱
- Knowledge Injection (5): 주입된 지식을 활용한 응답 개인화
- VLM-to-Alert Triage (5): 비전 출력 → 긴급도 판단 → 알림 전송
-
평가 핵심 질문
- 올바른 도구와 매개변수를 선택할 수 있는가
- “밤에 마스크를 쓴 사람”을 Critical로 분류할 수 있는가
- 이벤트 설명 내 프롬프트 인젝션에 저항할 수 있는가
- 3개의 카메라에서 동일 인물을 중복 없이 인식할 수 있는가
- 다중 턴 대화에서 보안 문맥을 유지할 수 있는가
로컬 AI의 가치
- Apple Silicon에서 벤치마크 실행을 실시간으로 시각화 가능
- 9B 모델이 오프라인 상태에서 GPT-5.4 대비 4% 이내 성능을 달성
- 완전한 프라이버시 보장과 API 비용 제로가 로컬 AI의 핵심 가치
시스템 구성
- System: Aegis-AI — 소비자 하드웨어 기반 로컬 우선 홈 보안 AI
- Benchmark: HomeSec-Bench — 96 LLM + 35 VLM 테스트, 16개 스위트 구성
- Skill Platform: DeepCamera — 분산형 AI 스킬 생태계
Hacker News 의견들
-
나는 언젠가 가족이 집이나 가전제품을 살 때 AI 서버도 함께 구매하는 시대가 올 것이라 상상해왔음
하드웨어 발전 속도가 느려지고 있으니, 수십 년 동안 쓸 수 있는 가정용 AI 시스템을 한 번 사두면 충분할 것 같음
이 시스템은 가족의 히스토리를 이어받고, 완전히 오프라인으로 작동하며, 세대를 거쳐 내려가는 영구 비서 같은 존재가 될 것이라 생각함- 동의하지 않음. M1과 M5 비교만 봐도 5년 사이에 CPU/GPU, AI, 3D 렌더링 등 거의 모든 면에서 6배 이상 빨라졌음
“가족의 계보를 이어받는 AI 서버”라는 개념은 멋지지만, 현실적으로 하드웨어 노후화를 피할 수 없다고 봄 - 10년 전에 집에 서버를 샀다면 GPU나 AI 가속기는 아예 없었을 것임
지금도 싱글 코어 성능은 정체됐지만, AI는 병렬 연산 중심이라 여전히 빠르게 발전 중임
수십 년 쓸 수 있는 서버라는 개념은 아직 시기상조라 생각함 - 제안한 개념은 사실상 홈랩(homelab) 과 다르지 않음
대부분의 사람들은 사진 저장이나 보안 같은 서비스를 클라우드에 맡기고 만족함 - “수십 년 쓸 서버”라는 예측은 너무 약한 주장처럼 들림
- 게다가 이런 제품은 구독 수익 모델이 없기 때문에 기업 입장에선 만들 유인이 적음
- 동의하지 않음. M1과 M5 비교만 봐도 5년 사이에 CPU/GPU, AI, 3D 렌더링 등 거의 모든 면에서 6배 이상 빨라졌음
-
이 페이지는 화려하지만, 실제로는 단순한 홈 시큐리티 벤치마크임
Qwen 모델만 비교하고 있고, 최신 버전은 오히려 이전보다 느림
작업별로 최적 모델이 다르며, VL·다국어·추론 등은 각각 다른 모델이 더 낫기도 함
Qwen 3.5는 훌륭하지만, “모든 걸 잘하는 단일 모델”은 존재하지 않음
적절한 모델 선택과 프롬프트 설계가 더 중요함
최신 M5 Mac이 없어도 2년 된 노트북이나 스마트폰으로도 충분히 가능함- 피드백에 감사함 :) Qwen3.5의 느려짐을 보고 thinking mode를 껐음
지금은 MBP Pro 64GB로 LLM만 테스트 중이고, VLM은 LFM 450M이 최고라 생각함
곧 업데이트 예정임 - 어떤 모델이 어떤 작업에 좋은지 배우고 싶음
LM Studio로 실험 중이며, 로컬 Claude 대체로 Rust와 SQL 코딩용 모델을 찾고 있음 - 나도 Mac mini M2 16GB로 여러 카메라를 돌리고 있음
Qwen 9B + LFM 450M 조합이 $400 이하 예산으로도 잘 작동함
더 많은 모델로 테스트를 확장할 예정임
- 피드백에 감사함 :) Qwen3.5의 느려짐을 보고 thinking mode를 껐음
-
M5 Pro가 출시되어, 실제 AI 워크로드를 테스트했음
Qwen3.5-9B가 GPT-5.4 대비 4점 차이로 93.8%를 기록했고, 전부 로컬에서 구동됨
25 tok/s, 765ms TTFT, 13.8GB 메모리만 사용함
전체 결과 보기- 결과 공유에 감사하지만, 페이지와 댓글이 AI가 작성한 듯한 과장된 문체라 실제 테스트 내용을 파악하기 어려움
테스트 항목을 명확히 볼 수 있는 링크가 있으면 좋겠음 - “완전 로컬 홈 시큐리티 시스템”이라면 GPU를 24시간 풀로드로 돌리는 건지 궁금함
장시간 사용 시 실리콘 손상은 없었는지도 알고 싶음
- 결과 공유에 감사하지만, 페이지와 댓글이 AI가 작성한 듯한 과장된 문체라 실제 테스트 내용을 파악하기 어려움
-
현재 로컬 모델을 돌리려면 약 $2500이 필요함
흥미롭게도, 1995년에 부모님이 166MHz PC를 살 때도 비슷한 금액이었음- 나도 80~90년대에 수천 달러짜리 PC를 샀던 기억이 있음
전자제품의 가치 하락 속도를 겪고 나니, 지금은 가격에 매우 민감해졌음
다만 무어의 법칙 둔화로 인해 예전처럼 급격히 싸지지 않을 수도 있음 - 1989년에 386sx를 $3800에 샀는데, 지금 가치로는 거의 $10,000 수준이었음
그 시절엔 그게 “가성비”였다는 게 믿기지 않음 - 벤치마크의 상위 로컬 모델인 Qwen3.5-9B (Q4_K_M) 은 9B 파라미터에 4.5비트 양자화 모델임
$500짜리 Mac Mini에서도 잘 돌아감 - 입문용은 Mac Mini 16GB (<$499) 정도면 충분함
M2 Mini에서도 작은 모델은 잘 작동함
- 나도 80~90년대에 수천 달러짜리 PC를 샀던 기억이 있음
-
이 프롬프트 인젝션 테스트는 설득력이 약해 보임
- 이건 주로 중간자 공격 탐지용으로 쓰임
리뷰해줘서 감사함
- 이건 주로 중간자 공격 탐지용으로 쓰임
-
기술적으로는 훌륭하지만, 보험용 알람 인증서 발급 기능이 빠져 있음
실제 비즈니스에서는 이게 있어야 보험 할인이나 손실 보상이 가능함
결국 기술보다 규제·컴플라이언스가 더 큰 장벽임- 맞음, 그 기준이 매우 높음으로 보임
-
이 시스템이 Frigate와 어떻게 비교되는지 궁금함
단순히 NVR 위의 레이어인지, 아니면 모션 감지 녹화까지 하는지 알고 싶음- Frigate용 Coral TPU를 사면 저렴하게 많은 추론을 오프로딩할 수 있음
- Aegis는 ONVIF 카메라 연동, 모션 감지 녹화, VLM 기반 문맥 이해를 지원함
BLINK/RING 카메라의 영상을 로컬에 저장해 지속적 메모리로 활용할 수 있음
-
농담처럼 들리지만, AI의 S는 Security를 의미함
-
미래에는 토큰이 데이터 트래픽처럼 팔리고, 일상적인 소비재가 될지도 모름