Ollama는 처음엔 “로컬에서 모델을 간단히 실행”하는 오픈소스형 방향성이었지만, 최근 유료 웹 검색 기능 등으로 외연을 확장하며 그 순수함이 흐려진 느낌임, 반대로 Windows ML은 깊은 OS 통합을 추구하지만 윈도우 생태계에만 종속되는 점에서 DirectX를 연상케 함, 이제 중요한 점은 vLLM/ONNX 혹은 직접 CUDA/ROCm에서 돌리는 방식 말고도 대안이 있을지, 혹은 결국 또다른 벤더 종속만 교환하는 것인지 궁금함
Ollama는 LLM(대형 언어 모델)에 집중하고 있음, 본문에서 언급된 Topaz Labs의 Topaz Photo 등 이미지 업스케일링처럼 다양한 예시를 보면 이 기술 방향성이 다르다는 점을 참고할 필요가 있음
System ONNX가 윈도우 앱 관점에서는 꽤 매력적일 수 있음, 다만 실제로 백엔드가 대부분의 시스템에서 신뢰성 있게 동작한다는 전제하임, 예를 들어 AMD의 경우 ROCm, MIGraphX, Vitis 등 3가지 옵션이 있으나 그 중 어느 것도 제대로 구동해본 적이 없음, MIGraphX가 더 이상 실험적(experimental)으로 표시되지 않아 한번 더 시도해볼 생각임
Windows ML과 Ollama+로컬 LLM 다운로드 방식이 실제로 비교했을 때 어느 쪽이 더 간단한지 궁금함, 특히 Windows ML 사용 시 개인정보가 얼마나 마이크로소프트로 전송되는지 프라이버시 측면에서 궁금증이 있음
Windows ML은 로컬 LLM 모델을 CPU, GPU, NPU 등 다양한 하드웨어에서 사용할 수 있게 코드가 특정 하드웨어에 종속되지 않도록 추상화해줌, 이 기술은 예전 DirectML(DirectX for ML)에서 발전된 버전임
Ollama는 NPU를 지원하지 않음
커스텀 레이어(특히 (flash) attention처럼 많은 회사에서 도입하는 다양한 버전)는 어떻게 지원하는지 의문임, 만약 MS가 런타임에 해당 기능을 구현할 때까지는 특정 모델을 실행 못하거나 변형된 버전만 사용할 수밖에 없는 것인지 궁금함
“Windows ML은 온디바이스 모델 추론에 최적화된 내장 AI 추론 런타임으로, 신입/경험자 개발자 모두 AI 기반 앱을 만들기 쉽게 해줌”이라는 설명을 보면 이번 발표가 애플의 최근 “Apple Intelligence의 코어인 온디바이스 LLM 접근을 모든 개발자에게 개방”한다는 발표와 상당히 유사하게 들림
애플이 최근 공개한 새로운 Apple Intelligence 기능과 맞물려, 어떤 디바이스든 결국 개발자·소비자 모두 프라이버시에 중점 둔 앱을 만들고 사용할 수 있어 win-win이라 생각함
이번 Windows ML은 Direct ML의 진화형임, 기존 DirectX처럼 C++에 치우친 문제점을 고려해 C#, C++, Python도 WinRT 프로젝션을 통해 이번 신규 API 위에서 쓸 수 있게 됨
나는 동일한 의미라고 보지 않음, 이번 Windows ML 발표의 핵심은 “모든 모델을 실행할 수 있다”에 가까움