Windows ML 정식 출시: Windows 디바이스 전반에 로컬 AI 확장 지원

(blogs.windows.com)

4P by GN⁺ 2달전 | ★ favorite | 댓글 1개

Windows ML이 정식 출시되어 CPU·GPU·NPU 전반의 온디바이스 추론과 모델·의존성 관리를 표준화하여 생산 환경 배포 효율을 개선함
클라우드와 클라이언트를 결합한 하이브리드 AI 흐름 속에서 Windows 11이 로컬 추론을 위한 통합 AI 런타임을 OS 차원에서 제공하는 것
ONNX Runtime 호환과 Execution Provider(EP) 자동 분배를 통해 하드웨어별 최적화를 추상화하고, 앱 용량 절감과 증분 업데이트를 지원
AMD·Intel·NVIDIA·Qualcomm과 협업해 각 사 EP를 Windows가 배포·등록하며, 전력/성능 디바이스 정책 지정 등 세밀한 타게팅을 제공
Windows App SDK 1.8.1+ 및 Windows 11 24H2 이상에서 기본 제공되며, AI Toolkit for VS Code·AI Dev Gallery 등 도구로 온보딩을 단순화

개요: Windows ML의 목표와 위치

Windows ML은 Windows 11에 내장된 온디바이스 AI 추론 런타임으로, 하이브리드 AI 시대의 로컬 추론 표준 계층을 지향함
- Windows AI Foundry의 기반 계층으로 작동하며, Foundry Local을 통해 확장된 실리콘 지원을 제공함
- 클라우드 비용·지연·프라이버시 이슈를 완화하며 실시간·보안·효율 중심의 사용자 경험 제공을 목표로 함

런타임 구성: ONNX·EP·분배 모델

ONNX Runtime(ORT) 호환으로 기존 ORT API와 워크플로우를 그대로 활용 가능함
- Windows가 ORT와 Execution Provider의 배포·유지보수를 담당하여 앱에 번들할 필요 없는 구조 제공
- EP는 런타임과 실리콘 사이의 최적화 브리지로, 각 벤더가 개발·관리하고 Windows가 동적 다운로드/등록함
배포 단순화·오버헤드 절감·호환성 유지의 세 가지 이점을 인프라 API로 제공함
- 디바이스에 맞는 EP를 자동 감지·설치하여 수십~수백 MB 규모의 앱 용량 절감 효과 제공
- 인증·적합성 프로세스로 빌드 간 정확도 유지를 추구하며 지속 업데이트를 반영함
Advanced Silicon Targeting으로 NPU(저전력)·** GPU(고성능)** 등 디바이스 정책 지정 지원
- 모델 AOT(사전 컴파일) 옵션으로 최종 사용자 경험을 간결화하는 선택지 제공

실리콘 파트너 최적화

AMD: Ryzen AI 전반에 Windows ML 통합, NPU·GPU·CPU 대상 Vitis AI EP로 가속 지원, 확장 가능한 로컬 AI 경험 지향
Intel: OpenVINO와 결합된 EP로 XPU 선택 최적화(CPU·GPU·NPU), Core Ultra 기반 PC에서 효율·성능 향상 목표
NVIDIA: TensorRT for RTX EP로 RTX GPU 전용 Tensor Core 라이브러리 활용, 디바이스별 최적화된 추론 엔진 생성
- DirectML 대비 추론 50%+ 가속을 주장하며 1억+ Windows RTX 디바이스 타깃의 배포 용이성 강조
Qualcomm Technologies: Snapdragon X Series에서 QNN EP로 NPU 가속, ORT 연동으로 GPU·CPU 경로도 지원
- Copilot+ PC 및 차세대 Snapdragon X2까지 통합 프레임워크 확장 의지 표명

생태계 채택 사례

Adobe Premiere Pro / After Effects: 로컬 NPU 기반 미디어 검색·오디오 태깅·씬 감지 가속, 추후 온디바이스 모델을 Windows ML로 점진 이전 계획
BUFFERZONE: 실시간 웹 페이지 분석으로 피싱/사기 방지, 민감 데이터의 클라우드 전송 불필요한 보안 시나리오 제공
Reincubate Camo: 이미지 분할 등 실시간 비전으로 화상 품질 향상, 모든 실리콘의 NPU 경로 활용
Dot Vista (Dot Inc.): 핸즈프리 음성 제어·OCR을 의료 환경 등 접근성 시나리오에 적용, Copilot+ PC NPU 활용
Wondershare Filmora: Body Effects(Lightning Twined, Neon Ring 등) 실시간 미리보기·적용을 AMD·Intel·Qualcomm NPU에 최적화
McAfee: 딥페이크·스캠 탐지의 로컬 추론 적용, 소셜 네트워크 환경 대응 강화
Topaz Photo: 선명화·포커스 복원 등 전문가급 AI 사진 개선 기능을 로컬 추론으로 제공

개발자 도구와 온보딩

AI Toolkit for VS Code로 PyTorch→ONNX 변환, 양자화·최적화·컴파일·평가를 일원화 지원
- Windows ML 타깃 단일 빌드 지향으로 멀티 타깃 분기 로직 최소화 추구
AI Dev Gallery에서 커스텀 모델 샘플을 상호작용 형태로 실습 가능
- 로컬 모델 기반 AI 시나리오 탐색과 빠른 프로토타이핑에 적합한 워크스페이스 제공

시작 조건과 배포 타깃

Windows App SDK 1.8.1+ 에 Windows ML 포함, Windows 11 24H2 이상 디바이스 지원
- 최신 Windows App SDK로 업데이트 후 Windows ML API 호출 → ONNX 모델 로드 → 추론 시작의 단순 경로 제공
- 상세 문서·API·샘플은 ms/TryWinML, ms/ai-dev-gallery 경로 안내

기술적 의미와 시사점

OS가 ORT·EP의 수명주기 관리를 맡아 앱이 모델·경량 추론 로직에 집중 가능한 구조 확립
- 하드웨어 파편화 흡수와 성능·전력 최적화 자동화로 개발·배포 복잡도를 사용성 측면에서 경감
NPU 우선 설계와 GPU 고성능 경로를 모두 제공하여 오프라인·프라이버시·비용 요구를 충족하는 로컬 AI 기본기 마련
- 벤더 EP의 속성·성능 차이와 Windows 인증·적합성으로 정확도 일관성을 추구하는 운영 모델 제시
생태계 측면에서 영상·보안·접근성·크리에이티브 도메인의 대표 앱이 도입을 예고하며 로컬 AI 상면 확대 전망
- 개발자는 모델 준비(변환·양자화) → EP 정책 지정 → 배포 자동화의 파이프라인으로 제품화 속도 제고 기대

주의·한계 관찰 포인트

EP 최적화 품질과 디바이스별 성능/정확도 편차 관리가 핵심 과제임
- 모델 AOT와 동적 EP 분배의 캐시·업데이트 전략, 호환성 유지에 따른 릴리스 관리 필요
기존 DirectML·벤더 SDK·크로스플랫폼 런타임과의 중복·역할 분담 구획이 아키텍처 의사결정 변수로 작용함
- 다중 OS 타깃 제품군의 경우 공통 추론 코어 vs. Windows 전용 경로의 트레이드오프 검토 필요

결론

Windows ML 정식 출시는 Windows 11을 로컬 AI의 기본 실행 환경으로 고도화하는 단계적 전환점
- 하드웨어 추상화·배포 자동화·도구 일체화로 제품화 장벽을 낮추며, NPU/ GPU 활용 극대화를 통해 반응성·프라이버시·비용 효율을 강화하는 기반 제공
- 대표 앱들의 도입과 벤더 EP 최적화가 맞물릴수록 Windows 생태계 전반의 온디바이스 AI가 빠르게 확대될 전망

▲

GN⁺ 2달전 [-]

Hacker News 의견

Ollama는 처음엔 “로컬에서 모델을 간단히 실행”하는 오픈소스형 방향성이었지만, 최근 유료 웹 검색 기능 등으로 외연을 확장하며 그 순수함이 흐려진 느낌임, 반대로 Windows ML은 깊은 OS 통합을 추구하지만 윈도우 생태계에만 종속되는 점에서 DirectX를 연상케 함, 이제 중요한 점은 vLLM/ONNX 혹은 직접 CUDA/ROCm에서 돌리는 방식 말고도 대안이 있을지, 혹은 결국 또다른 벤더 종속만 교환하는 것인지 궁금함
- Ollama는 LLM(대형 언어 모델)에 집중하고 있음, 본문에서 언급된 Topaz Labs의 Topaz Photo 등 이미지 업스케일링처럼 다양한 예시를 보면 이 기술 방향성이 다르다는 점을 참고할 필요가 있음
System ONNX가 윈도우 앱 관점에서는 꽤 매력적일 수 있음, 다만 실제로 백엔드가 대부분의 시스템에서 신뢰성 있게 동작한다는 전제하임, 예를 들어 AMD의 경우 ROCm, MIGraphX, Vitis 등 3가지 옵션이 있으나 그 중 어느 것도 제대로 구동해본 적이 없음, MIGraphX가 더 이상 실험적(experimental)으로 표시되지 않아 한번 더 시도해볼 생각임
Windows ML과 Ollama+로컬 LLM 다운로드 방식이 실제로 비교했을 때 어느 쪽이 더 간단한지 궁금함, 특히 Windows ML 사용 시 개인정보가 얼마나 마이크로소프트로 전송되는지 프라이버시 측면에서 궁금증이 있음
- Windows ML은 로컬 LLM 모델을 CPU, GPU, NPU 등 다양한 하드웨어에서 사용할 수 있게 코드가 특정 하드웨어에 종속되지 않도록 추상화해줌, 이 기술은 예전 DirectML(DirectX for ML)에서 발전된 버전임
- Ollama는 NPU를 지원하지 않음
커스텀 레이어(특히 (flash) attention처럼 많은 회사에서 도입하는 다양한 버전)는 어떻게 지원하는지 의문임, 만약 MS가 런타임에 해당 기능을 구현할 때까지는 특정 모델을 실행 못하거나 변형된 버전만 사용할 수밖에 없는 것인지 궁금함
“Windows ML은 온디바이스 모델 추론에 최적화된 내장 AI 추론 런타임으로, 신입/경험자 개발자 모두 AI 기반 앱을 만들기 쉽게 해줌”이라는 설명을 보면 이번 발표가 애플의 최근 “Apple Intelligence의 코어인 온디바이스 LLM 접근을 모든 개발자에게 개방”한다는 발표와 상당히 유사하게 들림
애플이 최근 공개한 새로운 Apple Intelligence 기능과 맞물려, 어떤 디바이스든 결국 개발자·소비자 모두 프라이버시에 중점 둔 앱을 만들고 사용할 수 있어 win-win이라 생각함
- 이번 Windows ML은 Direct ML의 진화형임, 기존 DirectX처럼 C++에 치우친 문제점을 고려해 C#, C++, Python도 WinRT 프로젝션을 통해 이번 신규 API 위에서 쓸 수 있게 됨
- 나는 동일한 의미라고 보지 않음, 이번 Windows ML 발표의 핵심은 “모든 모델을 실행할 수 있다”에 가까움

답변달기