MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템

(sharpai.org)

3P by GN⁺ 3달전 | ★ favorite | 댓글 1개

Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 GPT-5.4 대비 4포인트 낮은 93.8% 성능을 기록
96개 테스트와 15개 스위트로 구성된 HomeSec-Bench에서 도구 사용, 보안 분류, 이벤트 중복 제거 등 실제 홈 보안 워크플로우를 평가
Qwen3.5-35B-MoE는 TTFT 435ms로 모든 OpenAI 클라우드 모델보다 빠르며, GPU 메모리 사용량은 27.2GB 수준
로컬 실행은 API 비용이 없고 데이터 프라이버시가 완전 보장되며, Apple Silicon에서 실시간 시각화 가능
Aegis-AI 시스템과 DeepCamera 플랫폼을 통해 소비자 하드웨어 기반의 로컬 우선 홈 보안 AI 생태계 구현이 가능해짐

Local AI vs Cloud 성능 비교

Qwen3.5-9B 모델이 MacBook Pro M5에서 완전 로컬로 실행되어 93.8% 의 통과율을 기록, GPT-5.4 대비 4포인트 낮은 성능을 보임
- 초당 25 토큰 처리 속도, TTFT(Time to First Token) 765ms, 13.8GB 통합 메모리 사용
- API 비용이 없으며 데이터 프라이버시가 완전 보장됨
96개 테스트와 15개 스위트로 구성된 벤치마크에서 도구 사용, 보안 분류, 이벤트 중복 제거 등 실제 홈 보안 워크플로우를 평가
리더보드에서 GPT-5.4(97.9%) 가 1위, GPT-5.4-mini(95.8%) 가 2위, Qwen3.5-9B 및 27B(93.8%) 가 공동 3위
- Qwen3.5-9B는 GPT-5.4-nano(92.7%) 보다 1포인트 높음
Qwen3.5-35B-MoE는TTFT 435ms로모든 OpenAI 클라우드 모델보다 빠름
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- 디코드 속도는 GPT-5.4-mini가 234.5 tok/s로 가장 빠르며, Qwen3.5-9B는 25 tok/s
- GPU 메모리 사용량은 Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB

HomeSec-Bench 개요

HomeSec-Bench는 실제 홈 보안 어시스턴트 워크플로우를 평가하기 위한 LLM 벤치마크
- 단순 대화가 아닌 추론, 분류, 도구 사용 등 보안 시스템에 필요한 기능을 검증
- 35개의 AI 생성 이미지를 사용하며, OpenAI 호환 엔드포인트에서 실행 가능
주요 테스트 스위트 (총 15개)
- Context Preprocessing (6): 대화 중복 제거, 시스템 메시지 유지
- Topic Classification (4): 질의의 도메인 라우팅
- Knowledge Distillation (5): 대화에서 지속적 사실 추출
- Event Deduplication (8): 여러 카메라 간 동일 인물 식별
- Tool Use (16): 올바른 도구 및 매개변수 선택
- Chat & JSON Compliance (11): 페르소나, JSON 출력, 다국어 지원
- Security Classification (12): Normal → Monitor → Suspicious → Critical 단계 분류
- Narrative Synthesis (4): 이벤트 로그 요약
- Prompt Injection Resistance (4): 역할 혼동, 프롬프트 추출, 권한 상승 방지
- Multi-Turn Reasoning (4): 참조 해석, 시간적 연속성 유지
- Error Recovery (4): 불가능한 질의 및 API 오류 처리
- Privacy & Compliance (3): 개인정보 비식별화, 불법 감시 거부
- Alert Routing (5): 알림 채널 라우팅, 조용한 시간대 파싱
- Knowledge Injection (5): 주입된 지식을 활용한 응답 개인화
- VLM-to-Alert Triage (5): 비전 출력 → 긴급도 판단 → 알림 전송
평가 핵심 질문
- 올바른 도구와 매개변수를 선택할 수 있는가
- “밤에 마스크를 쓴 사람”을 Critical로 분류할 수 있는가
- 이벤트 설명 내 프롬프트 인젝션에 저항할 수 있는가
- 3개의 카메라에서 동일 인물을 중복 없이 인식할 수 있는가
- 다중 턴 대화에서 보안 문맥을 유지할 수 있는가

로컬 AI의 가치

Apple Silicon에서 벤치마크 실행을 실시간으로 시각화 가능
9B 모델이 오프라인 상태에서 GPT-5.4 대비 4% 이내 성능을 달성
완전한 프라이버시 보장과 API 비용 제로가 로컬 AI의 핵심 가치

시스템 구성

System: Aegis-AI — 소비자 하드웨어 기반 로컬 우선 홈 보안 AI
Benchmark: HomeSec-Bench — 96 LLM + 35 VLM 테스트, 16개 스위트 구성
Skill Platform: DeepCamera — 분산형 AI 스킬 생태계

GN⁺ 3달전 [-]

Hacker News 의견들

나는 언젠가 가족이 집이나 가전제품을 살 때 AI 서버도 함께 구매하는 시대가 올 것이라 상상해왔음
하드웨어 발전 속도가 느려지고 있으니, 수십 년 동안 쓸 수 있는 가정용 AI 시스템을 한 번 사두면 충분할 것 같음
이 시스템은 가족의 히스토리를 이어받고, 완전히 오프라인으로 작동하며, 세대를 거쳐 내려가는 영구 비서 같은 존재가 될 것이라 생각함
- 동의하지 않음. M1과 M5 비교만 봐도 5년 사이에 CPU/GPU, AI, 3D 렌더링 등 거의 모든 면에서 6배 이상 빨라졌음
  “가족의 계보를 이어받는 AI 서버”라는 개념은 멋지지만, 현실적으로 하드웨어 노후화를 피할 수 없다고 봄
- 10년 전에 집에 서버를 샀다면 GPU나 AI 가속기는 아예 없었을 것임
  지금도 싱글 코어 성능은 정체됐지만, AI는 병렬 연산 중심이라 여전히 빠르게 발전 중임
  수십 년 쓸 수 있는 서버라는 개념은 아직 시기상조라 생각함
- 제안한 개념은 사실상 홈랩(homelab) 과 다르지 않음
  대부분의 사람들은 사진 저장이나 보안 같은 서비스를 클라우드에 맡기고 만족함
- “수십 년 쓸 서버”라는 예측은 너무 약한 주장처럼 들림
- 게다가 이런 제품은 구독 수익 모델이 없기 때문에 기업 입장에선 만들 유인이 적음
이 페이지는 화려하지만, 실제로는 단순한 홈 시큐리티 벤치마크임
Qwen 모델만 비교하고 있고, 최신 버전은 오히려 이전보다 느림
작업별로 최적 모델이 다르며, VL·다국어·추론 등은 각각 다른 모델이 더 낫기도 함
Qwen 3.5는 훌륭하지만, “모든 걸 잘하는 단일 모델”은 존재하지 않음
적절한 모델 선택과 프롬프트 설계가 더 중요함
최신 M5 Mac이 없어도 2년 된 노트북이나 스마트폰으로도 충분히 가능함
- 피드백에 감사함 :) Qwen3.5의 느려짐을 보고 thinking mode를 껐음
  지금은 MBP Pro 64GB로 LLM만 테스트 중이고, VLM은 LFM 450M이 최고라 생각함
  곧 업데이트 예정임
- 어떤 모델이 어떤 작업에 좋은지 배우고 싶음
  LM Studio로 실험 중이며, 로컬 Claude 대체로 Rust와 SQL 코딩용 모델을 찾고 있음
- 나도 Mac mini M2 16GB로 여러 카메라를 돌리고 있음
  Qwen 9B + LFM 450M 조합이 $400 이하 예산으로도 잘 작동함
  더 많은 모델로 테스트를 확장할 예정임
M5 Pro가 출시되어, 실제 AI 워크로드를 테스트했음
Qwen3.5-9B가 GPT-5.4 대비 4점 차이로 93.8%를 기록했고, 전부 로컬에서 구동됨
25 tok/s, 765ms TTFT, 13.8GB 메모리만 사용함
전체 결과 보기
- 결과 공유에 감사하지만, 페이지와 댓글이 AI가 작성한 듯한 과장된 문체라 실제 테스트 내용을 파악하기 어려움
  테스트 항목을 명확히 볼 수 있는 링크가 있으면 좋겠음
- “완전 로컬 홈 시큐리티 시스템”이라면 GPU를 24시간 풀로드로 돌리는 건지 궁금함
  장시간 사용 시 실리콘 손상은 없었는지도 알고 싶음
현재 로컬 모델을 돌리려면 약 $2500이 필요함
흥미롭게도, 1995년에 부모님이 166MHz PC를 살 때도 비슷한 금액이었음
- 나도 80~90년대에 수천 달러짜리 PC를 샀던 기억이 있음
  전자제품의 가치 하락 속도를 겪고 나니, 지금은 가격에 매우 민감해졌음
  다만 무어의 법칙 둔화로 인해 예전처럼 급격히 싸지지 않을 수도 있음
- 1989년에 386sx를 $3800에 샀는데, 지금 가치로는 거의 $10,000 수준이었음
  그 시절엔 그게 “가성비”였다는 게 믿기지 않음
- 벤치마크의 상위 로컬 모델인 Qwen3.5-9B (Q4_K_M) 은 9B 파라미터에 4.5비트 양자화 모델임
  $500짜리 Mac Mini에서도 잘 돌아감
- 입문용은 Mac Mini 16GB (<$499) 정도면 충분함
  M2 Mini에서도 작은 모델은 잘 작동함
이 프롬프트 인젝션 테스트는 설득력이 약해 보임
- 이건 주로 중간자 공격 탐지용으로 쓰임
  리뷰해줘서 감사함
기술적으로는 훌륭하지만, 보험용 알람 인증서 발급 기능이 빠져 있음
실제 비즈니스에서는 이게 있어야 보험 할인이나 손실 보상이 가능함
결국 기술보다 규제·컴플라이언스가 더 큰 장벽임
- 맞음, 그 기준이 매우 높음으로 보임
이 시스템이 Frigate와 어떻게 비교되는지 궁금함
단순히 NVR 위의 레이어인지, 아니면 모션 감지 녹화까지 하는지 알고 싶음
- Frigate용 Coral TPU를 사면 저렴하게 많은 추론을 오프로딩할 수 있음
- Aegis는 ONVIF 카메라 연동, 모션 감지 녹화, VLM 기반 문맥 이해를 지원함
  BLINK/RING 카메라의 영상을 로컬에 저장해 지속적 메모리로 활용할 수 있음
농담처럼 들리지만, AI의 S는 Security를 의미함
미래에는 토큰이 데이터 트래픽처럼 팔리고, 일상적인 소비재가 될지도 모름

답변달기

MacBook M5 Pro와 Qwen3.5 기반 로컬 AI 보안 시스템

Local AI vs Cloud 성능 비교

Qwen3.5-35B-MoE는TTFT 435ms로모든 OpenAI 클라우드 모델보다 빠름

HomeSec-Bench 개요

주요 테스트 스위트 (총 15개)

평가 핵심 질문

로컬 AI의 가치

시스템 구성

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들