Nvidia, Windows PC용 괴물 같은 CPU 시스템 제안

(twitter.com/lemire)

5P by GN⁺ 1달전 | ★ favorite | 댓글 2개

NVIDIA의 Windows PC용 고성능 시스템은 CPU·GPU가 128GB 공유 메모리를 함께 쓰고 최대 6,144개 CUDA 코어를 제공하는 칩 구성
CPU는 성능 코어 10개와 효율 코어 10개를 갖추며, 성능 코어는 Cortex-X925 기반이고 SVE2는 최근 AMD 칩보다 낮지만 Apple Silicon보다 나은 수준
핵심 차별점은 CPU와 GPU 메모리를 나누지 않는 통합 메모리이며, 전용 GPU 메모리보다 느리지만 로컬 AI 모델 실행에 필요한 대역폭과 비용 조건을 겨냥한 구조
로컬 AI 모델 실행 수요는 아직 틈새 애플리케이션이라는 관점과, 128GB 공유 메모리가 학생 규모 실험에서 피크 GPU TFLOPs보다 중요할 수 있다는 관점도 있음
비교 축은 AMD Strix Halo, Intel Xe3P AI GPU, 최근 AMD 프로세서의 AVX-512이며, 납땜 RAM으로 사후 교체가 어렵다는 제약도 있음

시스템 사양과 메모리 구조

Nvidia가 제안한 Windows PC용 CPU 시스템은 128GB 공유 메모리와 최대 6,144개 최신 CUDA 코어를 갖춘 구성
CPU는 성능 코어 10개와 효율 코어 10개 구성, 성능 코어는 Cortex-X925 기반
Cortex-X925의 SVE2는 사양상 최근 AMD 칩보다 낮지만 Apple Silicon보다 나은 수준이라는 비교
최근 AMD 프로세서는 모두 AVX-512를 지원하며, AVX-512는 Cortex-X925의 SVE2보다 훨씬 우수하고 더 많은 데이터를 처리하며 더 범용적이라는 비교
- Intel은 지금까지 소비자 시스템에서 AVX-512 제공에 신중한 태도
128GB 통합 메모리는 CPU와 GPU용 별도 메모리 대신 단일 풀을 공유하는 방식이며, Apple이 몇 년 전 택한 경로와 같은 구조
통합 메모리는 점점 인기를 얻고 있으며, 전용 GPU 메모리보다 빠르지는 않지만 로컬 AI 모델 실행에 충분한 대역폭을 제공할 만큼 저렴하다는 장점
- 통합 RAM에서는 CPU와 GPU 사이에 데이터를 보낼 필요가 없고, 모든 것이 단일 메모리 풀에 있어 제로 카피 연산처럼 느껴진다는 견해
Intel과 AMD가 어떻게 대응할지가 관전 포인트

관련된 다양한 의견들

로컬 AI 모델 실행 수요가 얼마나 될지는 불확실하고, 아직 틈새 애플리케이션임
이 시스템은 비디오게임용으로 괜찮은 기계가 될 수 있다는 판단과, 게임용이 아니라 대형 모델용 설계라 예상만큼 게임에 좋지 않을 것이라는 반론도 있음
학생 규모 실험에서는 128GB 공유 메모리가 피크 GPU TFLOPs보다 중요할 수 있고, 어떤 모델·워크로드를 로컬에서 시험할 수 있는지를 바꿀 수 있다고 주장
RAM은 나중에 바꿀 수 없고 모두 납땜되어 있다는 트레이드오프
메모리 용량 요구는 128GB가 부족하고 256GB 또는 512GB를 원한다는 의견, AI 작업용 “beast”에는 최소 512GB가 필요하다는 의견, 1TB 통합 메모리 옵션을 원하기도
- 128GB 선택 이유에 대한 작성자의 짧은 답변은 "비용"
운영체제 관련해서 “regular Windows”를 실행하지 않는다는 주장과 함께 운영체제에 대한 아쉬움 표현, Linux 설치를 제안
AMD Strix Halo는 128GB 통합 메모리와 큰 iGPU를 가진 유사 제품이며, 데스크톱 Zen 5의 AVX-512를 갖춘 비교 대상
- AMD Strix Halo를 몇 달간 로컬 LLM 홈랩에 사용한 경험에서는 프로슈머급 LLM 실행이 가능하지만 실제 병목은 메모리 대역폭임
- 새 Nvidia 칩은 300GB/s 이상 메모리 대역폭이 필요하다는 요구
RTX5090은 이미 데스크톱이 있을 경우 더 빠른 소형 모델용으로 더 저렴할 수 있고, 해당 보드 계열은 더 큰 로컬 모델에 더 적합
로컬 AI 실행의 장점은 비밀·고객 데이터를 책임 소재가 불분명한 제3자에게 보내지 않는 점, SaaS 구독과 토큰 가격을 피하는 점, PC 사용 행동을 로컬 모델이 학습해 작업을 실행하는 점과 연결
로컬 모델은 사용자에게 보이지 않는 기능으로 동작하고, 더 높은 지능이나 더 많은 맥락이 필요한 작업은 원격으로 오프로딩될 수 있음
핵심은 로컬 모델 자체보다 통합 AI 애플리케이션을 지원하는 소프트웨어 플랫폼이며, 데스크톱을 관련성 있게 유지하는 방법
Google Chrome 실행이 로컬 AI 사용 사례가 될 수 있다는 예시는 Chrome의 built-in AI 문서
Intel Xe3P AI GPU 비교 항목은 160GB LPDDR5X, 최대 480GB 가능성, 640비트 메모리 인터페이스, PCIe x16 구성: https://tomshardware.com/pc-components/gpus/…

chcv0313 1달전 [-]

대부분의 LLM 도구들이 리눇 네이티브에 도커로 도는데, 윈도우에서 WSL로 쓰려면 자잘한 에러들이 많았습니다. 이제 윈도우 네이티브 도구들을 기대해도 되는 걸까요

답변달기

GN⁺ 1달전 [-]

Hacker News 의견들

통합 메모리 풀은 특히 데이터센터 밖의 시스템 아키텍처에서 계속 “게임 체인저”가 될 것 같음
최신 게임이나 소비자용 작업도 실제로는 GPU의 PCIe 대역폭이나 GDDR 메모리 대역폭을 전부 쓰지 않고, 로컬 AI도 평균 소비자에게는 더 빠른 메모리의 이득이 크지 않음
통합 메모리는 필요에 따라 활용도를 최적화하게 해주고, GDDR/DDR 배치를 따로 고민하지 않아도 되어 소형·휴대용 기기에서 전체 메모리 비용을 낮춰줌
단점은 보안으로, GPU나 CPU 쪽 메모리 부채널 공격이 다른 쪽까지 침해할 수 있어 앞으로 메모리 안전 설계가 중요해질 것 같고 Rust 지지자에게는 좋은 흐름일 듯함
- GPU의 PCIe 대역폭이나 GDDR 대역폭을 “최대한 활용”한다는 말이 조금 헷갈림
  게임은 하드웨어를 포화시키는 게 아니라 프레임 마감 시간 안에 일관된 출력을 내는 게 핵심임
  5090을 게임으로 포화시키려 해도 대상 시장이 작고, 사용자의 실제 사양이 테스트 장비만큼 잘 돌아가야 프레임률을 맞출 수 있음
- 게임 개발자 입장에서, 최신 게임이 GPU 대역폭을 다 쓰지 못하는 건 게을러서가 아니라 정말 어렵기 때문임
  현세대 콘솔과 현세대 PC의 가장 큰 차이 중 하나가 통합 메모리임
- 기기를 업그레이드 불가능하게 만들면 제조사가 시장 세분화를 강제하고 작은 RAM 업그레이드에 큰 프리미엄을 붙일 수 있어 편리함, Apple처럼
- 경제적 주장은 잘 납득되지 않음
  99%의 작업은 GPU 메모리보다 시스템 메모리가 최소 한 자릿수 이상 더 필요하고, 대부분의 시스템은 영상·브라우징 등에 필요한 수준 이상의 GPU 메모리를 거의 요구하지 않음
  새 사용 사례가 생겼다고 그 구조가 완전히 뒤집히진 않으며, 지금 128GB가 필요하고 로컬 AI도 128GB가 필요하다면 같은 일을 계속하려면 256GB가 필요함
  오히려 GPU에 그렇게 비싼 메모리를 쓰지 말자는 주장에 가까워 보이고, 추론만 한다면 맞을 수도 있음
- CPU 사용에 최적화된 DRAM과 GPU 사용에 최적화된 DRAM은 꽤 다르게 생겼음
  통합 메모리 아키텍처에서는 성능을 많이 포기하게 되며, 어떤 상황에서는 말이 되지만 만능 해법은 아님
로컬에서 AI 모델을 돌리는 사람이 얼마나 될지는 모르겠고 아직 틈새처럼 보이지만, 최근 Gemma 릴리스를 보면 비용 관점만으로도 일부 모델을 로컬에서 돌릴 가능성이 커졌음
기업 보안까지 고려하면 더 그렇고, 다만 이런 아키텍처가 게임용으로 왜 좋은지는 잘 모르겠어서 원문의 전체 문장에 의문이 듦
덧붙여 “Stanford/Elsevier 2025 전 세계 과학자 상위 2%, GitHub 상위 1000 개발자” 같은 문구를 여기저기 붙이는 건 오히려 역효과처럼 느껴짐
- “집에 컴퓨터를 둘 이유가 없다”던 Ken Olsen 발언의 2026년판처럼 들림
- 개인 약력에 저런 문구가 보이면 그냥 자기 홍보 맥락에서 모든 말을 받아들이라는 배너처럼 보임
- 대부분의 작업에서는 Qwen 3.6이 Gemma보다 훨씬 앞서 있음
  여러 M5 MacBook에 배포해 봤고 많은 작업에서 실제로 유용했음
  Opus나 현세대 Sonnet급 모델을 대체하진 못하지만 크기 대비 놀랍게 좋고, Sonnet 4 시기와 비슷하거나 조금 이전 수준으로 보임
  도구 호출, 코딩, 에이전트 작업에서 Gemma 모델보다 훨씬 안정적이고 특히 MTP 사용 시 더 빠름
- HN 독자층은 대체로 그의 자기 홍보 대상이 아니지만, 분명 대상은 있고 어느 정도 효과도 있을 것 같음
- 노트북에서 모델을 돌리는 게 데이터센터에서 돌리는 것보다 싸질 거라는 말은 믿기 어려움
  다른 계산 작업처럼 규모의 경제가 왜 여기에는 적용되지 않는지 모르겠음
작성자의 작업을 깎아내리고 싶진 않지만, 이 글은 실제로 깊게 본 게 아니라 스펙표만 보고 쓴 느낌임
5070 모바일과 코어 수는 같지만, 공유 피크 대역폭과 공유 피크 TDP가 각각 2/3 수준이라 GPU 단독 성능은 전용 유닛의 절반쯤일 가능성이 큼
Apple에는 SVE2가 없지만 비공개 AMX와 SME가 있고, 왜 SVE2가 SME보다 더 빠를 거라고 보는지 모르겠음
단일 코어 타입은 말하면서 전체 구성은 다루지 않았고, DGX Spark가 Apple 칩과 어떻게 비교되는지는 이미 1년 전부터 알려져 있음
CPU는 대략 M3 Pro급, GPU 계산은 대역폭을 제외하면 M4 Pro와 M4 Max 사이이며, 진짜 장점은 CUDA를 돌린다는 것 하나뿐임
출시 시점에는 Apple보다 2~3세대, AMD보다 1세대 뒤처질 가능성이 크고, DGX Spark의 또 다른 강점이던 서로 묶는 NIC도 여기서는 빠졌음
- Apple 대비 또 다른 장점은 프리필(prefill) 임
  Spark에서는 M5 Max보다 훨씬 빠르고, 같은 모델·같은 양자화·같은 질의·가능한 한 같은 vllm 설정으로 비교하면 큰 프롬프트와 낮은 캐시 가능성을 가진 작업에서 MBP가 프리필을 끝내기 전에 Spark 한 대가 응답을 끝내는 경우가 많음
- 여기서 말한 GPU 계산은 토큰 생성처럼 메모리 대역폭에 의존하는 작업을 떠올린 것 같음
  그 부분에서는 Apple이 유리하지만, Spark의 GPU 계산 성능은 M5 Max의 17 FP32 TFLOPS보다 훨씬 높고 대략 2배 수준임
  데스크톱 5070처럼 CUDA 코어 6144개를 갖고 있으며, 느린 메모리와 낮은 TDP 때문에 느려진 형태라 5070의 31 FP32 TFLOPS 대비 29.7 정도임
- Lemire는 CPU SIMD에 아주 좁게 관심이 있는 편이라 그 틈새에서는 흥미로울 수 있음
  전체적으로 Spark는 괜찮지만 대단하진 않음
- 이건 확실히 fluff이고, 이 무가치한 트윗이 HN 첫 페이지에 오른 건 특정 인물을 성역화하고 그들의 모든 발언을 예언처럼 다루는 습관 때문으로 보임
  업계가 오래전부터 알던 칩을 이제야 알게 된 듯하고 경쟁 제품도 거의 모르는 상태에서 “BEAST”, “GAME CHANGER”라고 올린 느낌임
  DGX Spark도 게임 체인저였나 하면 대체로 큰 실망이었고, 비싼 Nvidia 노트북 하나가 판도를 바꾸진 못할 것 같음
Qualcomm Snapdragon X2 Elite Extreme은 단일 코어 CPU 성능에서 Nvidia 칩을 크게 앞서고 Intel·AMD의 최고 제품도 이김
통합 메모리도 있고, CPU 성능과 전력 효율 양쪽에서 Apple M 시리즈와 같은 리그에 있는 유일한 CPU임
올해 말이 아니라 지금 노트북으로 살 수 있는데, 사람들이 Qualcomm을 과소평가하고 있음
- 운영체제 지원이 형편없음
  Linux 지원을 못 하면 의미가 거의 없고, 이 분야에서 중요한 플랫폼은 Linux와 Darwin 두 가지임
  Qualcomm은 수십 년간 GPU에서 AMD가 그랬던 것처럼 발표는 많고 웹페이지를 읽은 인터넷 팬도 많지만 실제로 돌리려 하면 악몽임
  Snapdragon X Elite는 Linux에서 안 돌아가니 플랫폼으로서 쓸모가 없고, 열성 사용자들이 M1을 더 잘 돌아가게 만들었을 정도라 Qualcomm 대신 오래된 Mac을 쓰게 됨
- Nvidia 칩의 X925는 2년 된 Arm 구형 CPU 설계라 그걸 이긴 것임
  비교 대상은 Mediatek Dimensity 9500에 들어간 X930이나 C1, 즉 Snapdragon 8 Elite Gen 5 / X2 Elite 쪽이어야 함
  Qualcomm이 아직 성능 우위는 있지만 점점 줄어드는 중이고, 더 중요한 건 Nvidia가 생태계를 훨씬 잘 만들고 있다는 점임
  Nvidia는 PC 게이밍 GPU 위에 구축된 배포 채널과 파트너가 훨씬 좋고, 게임 개발자 관계도 업계에서 unmatched임
  Qualcomm은 PC와 서버 CPU 양쪽에서 아직 실행력을 보여주지 못했음
- Microsoft가 Windows의 Arm 포팅을 엉망으로 해서 Qualcomm을 제대로 살리지 못하고 있음
- Qualcomm은 “한 번 속으면 네 탓, 두 번 속으면 다시는 안 속는다” 같은 상황임
  과거에 끔찍한 경험이 너무 많아서 사람들이 주저할 수밖에 없고, 지금은 더 노력하는 것 같지만 PC 시장 평판을 회복하려면 시간이 걸림
- Linux에서 제대로 지원되나?
실제 기기 보도자료는 여기 있음
https://nvidianews.nvidia.com/news/nvidia-microsoft-windows-...
Microsoft와 특히 NVIDIA가 본질적으로 종량제 클라우드 AI 모델과 충돌하는 기기를 내놓는다는 점을 지적하는 사람이 적어서 의외였음
Copilot의 더 나은 오프라인 BYOK, 무제한 AI 미래 같은 다른 발표와 신호를 보면 두 회사는 클라우드 전용 AI가 지속 가능하지도, 본질적으로 자신들에게 유리하지도 않다는 걸 이해한 듯함
그래도 이런 제품으로 OpenAI를 약화시키려는 태도는 눈에 띔
- 지난주 MS BUILD에서 unmetered intelligence가 아마 가장 많이 쓰인 표현이었음
  Microsoft는 로컬 AI에 강하게 밀어붙이는 중임
- 그럴 수도 있지만, 그냥 양쪽에 베팅하는 걸 수도 있음
가격이 정말 오르지 않는 한 로컬 LLM이 널리 채택될지는 잘 모르겠음
Sonnet이나 Kimi 같은 더 싼 호스팅 소형 모델을 쓰는 게 말이 되고, 이런 기기들은 Kimi급 모델을 돌리지 못할 텐데 그 정도가 장난감이 아닌 에이전트 작업의 바닥선임
$20 구독을 피하려고 $5,000을 쓰는 건 틈새 보안 이유가 아니면 말이 잘 안 됨
- 반대로 중국이 DRAM 생산을 계속 키워 가격을 붕괴시키고, 그 희소성 위에 떠받쳐진 미국 주식시장도 함께 내려갈 가능성에 걸겠음
- 생성형 AI가 새 제품과 게임에 어떤 영향을 줄 수 있는지는 아직 제대로 보지도 못했다고 봄
  Dungeon Crawler Carl을 본 적 있나?
이런 노트북이 제공할 것을 대부분 제대로 이해하지 못하는 것 같음
로컬 AI 전에 먼저 하이브리드 AI를 쓰게 될 가능성이 큼
큰 모델을 로컬에서 돌리는 건 비현실적이지만, 에이전트 워크플로에서 일부는 클라우드, 더 작은 작업은 로컬에서 돌린다고 생각하면 훌륭한 조합임
기본 작업에는 Opus/Code/DeepSeek/Kimi 같은 모델이 필요 없고, Gemma4:12b/Qwen-27b 같은 모델이 훨씬 낮은 지연으로 로컬에서 처리할 수 있음
원격 대형 모델과 로컬 도메인 특화 모델 5개를 결합할 수 있는 노트북이라면 지금 당장 쓰고 싶음
OpenCode에서 작은 모델이 어떤 작업을 로컬에서 돌릴지 판단하고, 특정 작업에 맞는 로컬 모델이 있는지 아니면 클라우드 모델을 쓸지 결정하는 모습을 상상해 볼 수 있음
걱정은 이 하드웨어가 빠른 로컬 모델 전환을 감당할 만큼 강력한지인데, 아마 아닐 것 같지만 틀렸으면 좋겠음
- 로컬 모델의 발전 속도를 보면, 현재 궤적에서는 2년 안에 128GB 통합 RAM과 6비트 양자화로 프런티어 모델에 준하는 성능을 볼 수 있을 것 같음
  프런티어 모델도 이제 200,000 토큰만으로 더 나은 벤치마크를 찍고 있고, 증류에는 아직 갈 길이 많이 남았음
이게 뭐의 “괴물”인지 잘 모르겠음
메모리 대역폭 300GB/s는 AMD Strix Halo의 256GB/s보다 조금 높을 뿐이고, 같은 128GB RAM 구성에서 M5 Max 128GB의 614GB/s보다는 절반도 안 됨
관심 있는 사람 대부분이 AI 애호가일 것 같아 메모리 대역폭을 강조하는데, 게다가 Windows임
- M5 Max와 달리 쓸 만한 컨텍스트 프리필이 가능할 것 같음
  M5에서 첫 토큰까지 절반에 가까운 시간이 걸릴 256k 토큰 워크플로도 현실적으로 돌릴 수 있음
- Nvidia가 직접 추론이나 학습 용도 밖의 데스크톱 사용에서도 ARM CPU를 실용적으로 만들려면 소프트웨어 기반 작업이 많이 남았음
  AMD는 x86 기기라 모든 걸 돌릴 수 있고, Apple은 MacOS 스택 전체를 유지하지만, Nvidia는 Jetson 세대마다 Ubuntu 릴리스 하나 겨우 맞추는 수준이라 민망할 정도임
  계속 떠드는 에이전트를 실제로 운영체제 지원 작업에 투입하면 좋겠음
이미 살 수 있고 128GB 통합 메모리를 지원하는 AMD Ryzen AI Max 같은 것과 뭐가 다른지 정말 궁금함
- 아마 CUDA 지원이나 NVIDIA 특화 요소 때문일 수 있음
2026년에 아직도 “Windows PC”에 집착하는 사람이 누구인지 모르겠음
그냥 개인용 컴퓨터이고 보통 여러 운영체제를 잘 돌릴 수 있음
Windows PC라는 표현은 Microsoft에게 돈을 받았거나, Word 문서에 그림을 넣어 보내는 식으로 기술을 말하는 사람처럼 들림
운영체제에 구애받지 않는 기기의 재미를 억지로 형편없는 운영체제에 묶을 필요는 없음
- 당연히 기업 시장임
  아마 나머지 시장을 합친 것보다 더 많은 PC를 살 가능성이 큼
  개인 용도에서도 Windows와 다른 운영체제를 듀얼 부팅하는 사람은 아주 작은 소수일 것임
  “Windows PC”는 “Apple이 만든 것”과 “그 외가 만든 것”을 구분하는 꽤 합리적인 표현이고, Apple이 만들지 않았으면서 Windows가 기본이 아닌 PC 시장은 정말 작음
  솔직히 이 주제로 이렇게 공격적인 태도를 취하는 건 이상해 보임
- 아마 Mac 이야기가 아니라는 점을 명확히 하려는 표현일 것임
  PC라는 말은 원래 의미의 모든 개인용 컴퓨터를 뜻할 수도 있고, Mac과 대비되는 IBM PC 계열을 뜻할 수도 있어 애매함
  “I'm a Mac, I'm a PC” 광고를 떠올리면 됨
  그냥 PC라고 하면 오늘날 사람들은 어느 의미인지 실제로 헷갈리고, “IBM PC”는 낡았고 “IBM PC clone”은 더 나쁨
  그래서 “Windows PC”는 꽤 괜찮은 이름이고, “Non-Mac PC”는 말맛도 별로임
  굳이 모욕적으로 말할 필요는 없음
- 이건 전통적 의미의 “Windows PC”도 아님
  기업이나 게임 같은 일부 가정용 데스크톱에서 Windows를 쓰는 이유는 여전히 하드웨어·소프트웨어 호환성임
  업무에서 Windows 프로그램을 만들기 때문에 쓰고, Win-for-ARM에는 아직 없는 드라이버도 사용함
  그래서 대부분에게 “Windows PC”는 여전히 x64 Windows PC를 뜻함
  Windows-Arm64 호환성이 충분하지 않다면, 어차피 새 소프트웨어와 하드웨어가 필요하니 사람들이 Windows 자체에서 떠날 수도 있다는 게 Microsoft의 위험임
- Nvidia가 만든 기기에서 Windows가 아닌 걸 돌리려는 사람은 이제 교훈을 얻었길 바람
  저주받은 Nvidia Hackintosh는 매우 웃기긴 하겠지만
  일반 사용자에게 컴퓨터 운영체제는 Windows, Apple, ChromeOS 세 가지이고, Nvidia는 ChromeOS로 가지 않을 것이며 Apple은 Nvidia를 싫어하니 마케팅 가능한 정상 운영체제는 Windows뿐임
  마케팅은 이 기기들이 많은 사람의 데스크톱 경험을 망친 값싼 Chromebook이 아니라는 점을 분명히 함
  Qualcomm은 Linux 지원을 약속했다가 실패했고, 그 약속에 데인 사람들은 다시 그 하드웨어를 사기 싫어할 것임
  Windows PC를 약속하면 Linux, FreeBSD, SerenityOS가 부팅되지 않는다고 불평할 이유가 줄어들고, Qualcomm의 실패를 보면 Nvidia가 아마 맞는 선택을 하는 것 같음
- Nvidia가 Windows ARM을 위해 크게 밀고 있다는 건 관련 있는 정보로 보임

답변달기

Nvidia, Windows PC용 괴물 같은 CPU 시스템 제안

시스템 사양과 메모리 구조

관련된 다양한 의견들

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들