- 강화학습과 에이전틱 AI 추론의 폭발적 수요로 데이터센터에서 CPU의 역할이 다시 급부상하며, GPU 중심이던 투자 흐름에 변화 발생
- Intel은 2025년 말 예상치 못한 서버 CPU 수요 급증을 경험하고 2026년 파운드리 설비 투자를 확대하며 PC용 웨이퍼를 서버로 전환 중
- AMD Venice는 TSMC N2 공정 기반 256코어 Zen6c CCD와 메시 네트워크를 도입해 성능과 전력 효율 모두에서 Intel 대비 격차 확대 전망
- NVIDIA, AWS, Microsoft, Google, ARM 등 하이퍼스케일러 자체 ARM CPU 진영이 본격 확대되며 x86 독점 구도가 빠르게 해체 중
- Huawei Kunpeng 950까지 포함해 2026년은 모든 벤더가 신세대 CPU를 동시 출시하는 유례없는 경쟁의 해
데이터센터 CPU의 역할 변화와 진화
-
PC 시대부터 닷컴 시대까지
- 1990년대 PC 프로세서의 성능 향상으로 메인프레임·워크스테이션을 대체하는 수요 발생, Intel이 Pentium Pro(1995)와 Xeon 브랜드(1998)로 서버 시장 진입
- 2000년대 인터넷 시대에 Web 2.0, 전자상거래, 스마트폰 확산으로 데이터센터 CPU가 수십억 달러 시장으로 성장
- GHz 경쟁 종료 후 멀티코어 CPU와 메모리 컨트롤러 통합(AMD), PCIe 직접 연결 등 설계 혁신이 진행
-
SMT(Simultaneous Multi-Threading)가 Intel과 AMD 양사에서 도입되어 병렬 처리 성능 향상
-
가상화·클라우드 컴퓨팅 하이퍼스케일러 시대
- 2000년대 후반 AWS 등 퍼블릭 클라우드 등장으로 CapEx에서 OpEx 모델로 전환, 서버리스 컴퓨팅(AWS Lambda 등)까지 발전
-
CPU 하드웨어 가상화가 클라우드의 핵심 기반으로, 하이퍼바이저(VMware ESXi 등)가 단일 CPU에서 다수의 독립 VM 운영
- 2018년 Spectre와 Meltdown 취약점으로 SMT 비활성화 필요성 대두, 최대 30% 성능 손실 발생
- 분기 예측 기능을 이용한 공격으로 클라우드 보안 위협이 현실화
-
AI GPU와 CPU 통합 시대
- ChatGPT 출시(2022년 11월) 이전 5년간 Intel은 1억 개 이상의 Xeon Scalable CPU를 출하
- AI 모델 학습·추론은 GPU의 대규모 벡터 유닛과 Tensor Core에서 100~1000배 더 효율적으로 수행
- CPU는 GPU 대비 행렬 연산 성능이 극히 낮아 지원 역할로 격하, GPU에 전력 우선 배분
- CPU 활용은 두 가지로 분화:
-
헤드 노드: GPU에 데이터를 공급하고 관리, 높은 코어 성능·대용량 캐시·고대역폭 메모리 필요 (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 등)
-
클라우드 네이티브 소켓 통합: 전력 효율 극대화를 위해 구형 서버를 최신 CPU로 10:1 이상 비율로 교체, COVID 시기 구매한 수백만 대의 Intel Cascade Lake 서버가 퇴역 중
-
강화학습·에이전틱 시대
- Microsoft의 OpenAI용 "Fairwater" 데이터센터에서 48MW CPU·스토리지 빌딩이 295MW GPU 클러스터를 지원, 수만 개의 CPU가 페타바이트급 데이터 처리에 투입
-
강화학습(RL) 환경에서 모델이 생성한 행동을 실행하고 보상을 계산하기 위해 코드 컴파일, 검증, 해석, 도구 사용 등에 대량의 CPU 필요
- GPU 성능 향상 속도가 CPU를 크게 앞서, 향후 Rubin 세대에서 CPU 대 GPU 전력 비율이 1:6 이상으로 확대될 가능성
-
RAG 모델과 에이전틱 모델이 API 호출·인터넷 검색·데이터베이스 쿼리를 대규모로 수행하며 범용 CPU 수요 급증
- AWS와 Azure가 자체 Graviton·Cobalt CPU와 x86 서버를 대량 구축 중
- Frontier AI 연구소들이 RL 학습용 CPU 부족에 직면, 클라우드 제공업체와 범용 x86 서버 확보를 두고 직접 경쟁
- Intel은 예상치 못한 재고 고갈로 Xeon 가격 인상을 검토하며 추가 생산 도구 확보 중
- AMD는 공급 역량을 확대하며 2026년 서버 CPU TAM이 "강한 두 자릿수" 성장할 것으로 전망
멀티코어 CPU 인터커넥트의 역사
-
초기 크로스바 설계와 한계
- 초기 듀얼코어(Intel Pentium D, AMD Athlon 64 X2, 2005년)에서 FSB(Front Side Bus) 또는 온다이 NoC 기반 연결
- 크로스바 방식은 코어 수 증가 시 연결 수가 급증(2코어=1, 4코어=6, 6코어=15, 8코어=28)하여 4코어가 실질적 한계
- AMD Istanbul(2009)이 6-way 크로스바, Magny-Cours(2010)가 듀얼 다이 12코어, Interlagos가 16코어로 확장
-
Intel 링 버스 아키텍처
- Intel Nehalem-EX(2010)에서 링 버스 도입, 8코어를 단일 다이에 통합하며 IMC와 QPI 링크 포함
- 이중 역회전 링으로 지연시간과 혼잡 완화, 코어 대 코어 접근 지연은 비균일(NUMA)
-
Ivy Bridge-EX: 3열 5행 배치에 3개 "가상 링"으로 15코어 달성
-
Haswell/Broadwell: 듀얼 독립 링 버스로 18~24코어, 그러나 링 간 버퍼드 스위치 통과 시 100ns 이상 지연 발생
- "Cluster on Die" 구성으로 2개 NUMA 노드 분리 가능
-
Intel 메시 아키텍처
- 2016년 Xeon Phi "Knights Landing" 에서 메시 인터커넥트 도입, 2017년 Skylake-X Xeon Scalable(28코어)로 확대
- 2D 격자 배열로 코어·L3 캐시 슬라이스·PCIe IO·IMC·가속기를 각 메시 스톱에 배치
-
Sub-NUMA Clustering(SNC) 모드로 메시를 사분면 분할하여 평균 지연시간 감소
- Skylake-X: 6x6 메시, 메시 클럭 2.4GHz로 Broadwell 듀얼 링과 유사한 평균 지연시간 달성
-
Ice Lake: 10nm 전환으로 8x7 메시에 40코어까지 확장(레티클 한계)
-
EMIB을 통한 분산 메시
-
Sapphire Rapids: Intel 7 노드에서 단일 모놀리식 다이로는 34코어에 그침, AMX 엔진 추가로 코어 면적 증가
-
EMIB 어드밴스드 패키징으로 4개 다이를 연결, 8x12 메시 구성으로 60코어 달성(약 1600mm² 실리콘)
- 코어 대 코어 평균 지연이 47ns(Skylake)에서 59ns로 악화
- 각 코어의 프라이빗 L2 캐시를 2MB로 증가(총 L2 > L3: 120MB vs 112.5MB)
- E5 스테핑까지 진행되며 수년간 지연, 원래 2021년 예정이었으나 2023년 초 출시
-
Emerald Rapids(2023년 말): 다이 수를 2개로 줄이고 코어 66개(최대 64개 활성), L3 캐시를 320MB로 거의 3배 증가
-
Xeon 6의 이종 분산 설계
- 2024년 Xeon 6 플랫폼에서 I/O와 컴퓨팅을 이종 분리: I/O 다이는 Intel 7, 컴퓨트 다이는 Intel 3
- P-코어 Granite Rapids와 E-코어 Sierra Forest 구성을 혼합 가능
- Granite Rapids-AP Xeon 6900P: 3개 컴퓨트 다이로 10x19 메시, 132코어(최대 128코어 활성)
- Sierra Forest: E-코어 4개를 클러스터로 묶어 8x6 메시에 144코어, 그러나 하이퍼스케일러가 이미 AMD·자체 ARM CPU를 채택하여 도입 제한적
- 듀얼 다이 288코어 Sierra Forest-AP(Xeon 6900E)는 소량 생산에 그침
-
Clearwater Forest의 한계
- Xeon 6+ Clearwater Forest-AP: Intel의 Foveros Direct 하이브리드 본딩으로 18A 코어 다이를 Intel 3 베이스 다이 위에 적층, 288코어 달성
- 12개의 24코어 컴퓨트 다이로 구성된 복잡한 설계
- Foveros Direct 통합 문제로 H2 2025에서 H1 2026으로 지연
- 4코어 클러스터당 베이스 다이 L3·메시 접근 대역폭이 35GB/s에 불과
- 2년의 간격에도 Sierra Forest 대비 동일 코어 수 기준 17% 성능 향상에 그침
- Intel은 Q4 2025 실적 발표에서 Clearwater Forest를 거의 언급하지 않았으며, 고볼륨 생산보다 Foveros Direct 수율 학습 차량으로 활용할 가능성
AMD Zen 인터커넥트 아키텍처
-
EPYC Naples (2017)
- AMD의 데이터센터 복귀작으로, 4개의 "Zeppelin" 다이를 MCM으로 구성해 32코어 달성
- 각 다이에 2개의 CCX(4코어+8MB L3, 크로스바 연결), 다이 간 Infinity Fabric on Package(IFOP) 링크
- 통합 L3 캐시 부재와 다수의 NUMA 도메인(Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket)으로 지연시간 편차가 큼
- Intel이 "4개의 데스크톱 다이를 접착한 것"이라고 조롱했으나, 소규모 팀의 자원 효율적 설계
-
EPYC Rome (2019) 이후 세대 진화
- Rome: 중앙 I/O 다이 주위에 8개 8코어 CCD 배치, CCD는 TSMC N7, I/O 다이는 GlobalFoundries 12nm
- 모든 CCX 간 통신이 I/O 다이를 경유하는 GMI 링크 방식으로 기능적으로 16개 4코어 NUMA 노드
-
Milan(2021): CCX 크기를 8코어로 확대하며 링 버스 채택, Rome의 I/O 다이 재사용
-
Genoa(2022): 12개 CCD, Turin(2024): 최대 16개 CCD로 128코어(EPYC 9755), DDR5·PCIe5로 업그레이드
- 칩렛 설계의 핵심 이점: 단일 CCD 테이프아웃으로 전체 코어 수 라인업 구성 가능, 소형 다이로 수율·출시 속도 유리
- 콤팩트 Zen 4c/Zen 5c 코어 변형으로 Bergamo(Zen 4c), Turin-Dense(192코어)도 동일 플랫폼에서 제공
Intel Diamond Rapids 아키텍처
- 4개의 CBB(Core Building Block) 다이가 2개의 IMH(I/O and Memory Hub) 다이를 둘러싸는 구조로, AMD 설계와 외형적으로 유사
- 각 CBB 내 32개의 듀얼 코어 모듈(DCM)이 Intel 18A-P로 제작되어 Intel 3-PT 베이스 다이에 하이브리드 본딩
- 2개 코어가 공통 L2 캐시 공유, 2008년 Dunnington 세대를 연상시키는 설계
- 총 256코어이나 메인스트림 SKU에는 최대 192코어 활성화 예상
- IMH 다이: 16채널 DDR5, PCIe6(CXL3 지원), Intel 데이터 경로 가속기(QAT, DLB, IAA, DSA)
- EMIB 대신 패키지 기판 위 장거리 트레이스로 다이 간 연결, 각 CBB가 양쪽 IMH에 직접 접근 가능
- 다만 크로스-CBB 지연시간은 상당히 악화 예상
-
SMT 제거 문제
- Spectre/Meltdown 이후 Intel이 P-코어에서 SMT를 제거, 2024년 클라이언트 Lion Cove부터 적용
- 데이터센터에서는 최대 처리량이 중요하므로 Diamond Rapids에 심각한 약점
- 현행 Granite Rapids 128코어/256스레드 대비, 192코어/192스레드 Diamond Rapids는 약 40% 성능 향상에 그칠 전망
- 메인스트림 8채널 Diamond Rapids-SP 플랫폼을 전면 취소, 최소 2028년까지 해당 시장에 신세대 부재
- AI 도구 사용·컨텍스트 스토리지에 필요한 범용 컴퓨팅 CPU 시장을 놓치는 결과
AMD Venice 아키텍처
- AMD가 처음으로 어드밴스드 패키징 기술을 채택, 고속 단거리 링크로 CCD와 I/O 다이 연결
- CCD 링크용 추가 쇼어라인으로 인해 중앙 I/O 허브가 2개 다이로 분리, 칩 양쪽 간 추가 NUMA 도메인 발생
- 16개 메모리 채널(Genoa의 12채널에서 증가), MRDIMM-12800 멀티플렉스 메모리로 1.64TB/s 대역폭(Turin 대비 2.67배)
- CCD 내부에 메시 네트워크 도입: 32개 Zen6c 코어가 4x8 격자 배치, TSMC N2 공정
- 8개 CCD로 총 256코어, Turin-Dense 192코어 대비 1/3 증가
- Zen6c에 코어당 4MB L3 캐시 전량 할당(이전 Zen5c는 절반), CCD당 128MB 캐시 영역
- AI 헤드 노드용 저코어·고클럭 "-F" SKU: 데스크톱/모바일용 12코어 Zen6 CCD 활용, 최대 96코어
- I/O 다이 옆 DDR5 인터페이스 근처에 8개의 소형 IPD(Integrated Passive Device)로 전력 공급 안정화
-
Venice 성능 및 신규 명령어
- 256코어 최상위 모델이 192코어 Turin 대비 SPECrate®2017_int_base에서 와트당 성능 1.7배 이상
- Zen 6 마이크로아키텍처의 높은 IPC(Instructions per Clock) 향상
- 신규 AI 데이터타입 명령어: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM(비트 행렬 곱셈)
- BMM: FPU 레지스터에 16x16 바이너리 행렬 저장, OR·XOR 연산으로 BMM 누적 수행
- Verilog 시뮬레이션 등에 효율적이나 LLM에는 정밀도 부족으로 채택 제한적 전망
- AMD 96코어 Turin이 Intel 128코어 Granite Rapids와 동등한 상황에서, Venice와 Diamond Rapids 간 성능 격차 더욱 확대 전망
- Intel이 8채널 프로세서를 취소한 반면 AMD는 새로운 8채널 Venice SP8 플랫폼 도입, EPYC 8004 Siena 후속으로 최대 128코어 Zen 6c 제공
- Intel의 전통적 강세 영역인 엔터프라이즈 시장에서 AMD의 점유율 확대 예상
NVIDIA Grace 및 Vera
-
Grace CPU
- GPU 헤드 노드와 확장 GPU 메모리를 위한 설계, NVLink-C2C(양방향 900GB/s)로 GPU가 CPU 메모리에 풀 대역폭 접근
- 모바일급 LPDDR5X 메모리 채택, 512비트 메모리 버스로 500GB/s 대역폭, CPU당 최대 480GB
- ARM Neoverse V2 코어 72개(76개 중 활성), 6x7 메시, 117MB L3 캐시
- 메시 네트워크 양방향 분할 대역폭 3.2TB/s로 데이터 흐름에 특화
- 마이크로아키텍처적 병목: Branch Target Buffer가 24개 리전 초과 시 성능 급락, 32개 리전 초과 시 64MB 버퍼 전체 플러시 발생
- 최적화되지 않은 HPC 코드에서 50% 성능 저하, GB200/GB300의 AI 워크로드에도 영향
-
Vera CPU (2026)
- Rubin 플랫폼용으로 C2C 대역폭 1.8TB/s로 2배 증가
- 8개 128비트 SOCAMM 모듈로 1.5TB 메모리, 1.2TB/s 대역폭
- 7x13 메시에 91코어(88개 활성), L3 캐시 162MB
-
CoWoS-R 패키징: 1개 3nm 레티클 크기 컴퓨트 다이 + 4개 LPDDR5 메모리 다이 + 1개 PCIe6/CXL3 IO 다이(총 6개 다이)
- Neoverse 코어의 성능 병목에서 벗어나 자체 설계 Olympus 코어 복귀
- 88코어/176스레드(SMT 지원), ARMv9.2, FPU 6x 128b 포트(Neoverse V2의 4개에서 확대)
- ARM SVE2 FP8 연산 지원, 코어당 2MB L2 캐시(Grace 대비 2배)
- 전체적으로 2배 성능 향상
AWS Graviton5
- AWS는 최초로 자체 CPU를 클라우드에 성공 배치한 하이퍼스케일러, Annapurna Labs 인수와 ARM Neoverse CSS 활용
-
Graviton2: COVID 붐 시기 대폭 할인으로 ARM 전환 유도, 64개 Neoverse N1 코어
-
Graviton3: Neoverse V1으로 코어당 부동소수점 성능 2배, EMIB 칩렛 설계, DDR5·PCIe5를 AMD·Intel보다 1년 먼저 도입
-
Graviton4: Neoverse V2 코어 96개, 12채널 메모리, PCIe5 96레인, 듀얼소켓 지원
-
Graviton5(2025년 12월 프리뷰): 192개 Neoverse V3 코어, TSMC 3nm, 1720억 트랜지스터
- L3 캐시 192MB(Graviton4의 36MB에서 대폭 증가), 12채널 DDR5-8800
- PCIe6 업그레이드이나 레인 수는 96→64개로 감소(미사용 레인 비용 최적화)
- 8x12 메시, 2코어가 메시 스톱 공유, 복수 컴퓨트 다이 분할 및 새로운 패키징 전략 채택
- AWS 내부적으로 수천 개 Graviton CPU를 CI/CD·EDA에 사용하여 차세대 Graviton·Trainium·Nitro 설계에 활용(자체 도그푸딩)
-
Trainium3 가속기가 Graviton CPU를 헤드 노드로 사용(1 CPU : 4 XPU)
Microsoft Cobalt 200
- Cobalt 100(2023, 128 Neoverse N2 코어) 후속으로 2025년 말 출시
-
132개 Neoverse V3 코어, 코어당 3MB L2 캐시, TSMC 3nm 컴퓨트 다이 2개
- 다이당 8x8 메시, 72코어 인쇄/66코어 활성, 192MB L3 캐시, 6채널 DDR5, 64레인 PCIe6
- Cobalt 100 대비 50% 성능 향상
- Azure 범용 CPU 컴퓨팅 서비스 전용, AI 헤드 노드에는 미사용(Microsoft Maia 200은 Intel Granite Rapids 채택)
Google Axion C4A, N4A
- 2024년 발표·2025년 GA, Google의 GCP 커스텀 실리콘 CPU 시장 진입
-
Axion C4A: 최대 72개 Neoverse V2 코어, 8채널 DDR5, PCIe5, 모놀리식 5nm 다이(81코어 인쇄, 9x9 메시)
- 2025년 말 프리뷰된 96코어 베어메탈 인스턴스용 새로운 3nm 다이 설계로 추정
-
Axion N4A: 비용 효율적 스케일아웃용, 64개 Neoverse N3 코어, TSMC 3nm 풀 커스텀 설계
- Google 내부 인프라(Gmail, YouTube, Google Play 등)를 ARM으로 전환 중, 향후 TPU 클러스터 헤드 노드에도 Axion 배치 계획
Ampere Computing과 SoftBank 인수
- 머천트 ARM 실리콘의 선구자로 Oracle과 파트너십, Altra(80코어)와 Altra Max(128코어)로 x86 독점 도전
- Neoverse N1 코어, 자체 메시 인터커넥트(4코어 클러스터), 8채널 DDR4, 128 PCIe4 레인, TSMC 7nm 단일 다이
-
AmpereOne: 5nm 공정, 192코어, I/O 칩렛 분리(DDR5·PCIe), 인터포저 불필요한 MCM 설계
- 커스텀 ARM 코어(코어 밀도 최적화) + 2MB L2 캐시(노이지 네이버 문제 완화)
- 칩렛 재사용으로 12채널 AmpereOne-M, 3nm 256코어 AmpereOne-MX 등 변형 계획
- 2025년 SoftBank이 65억 달러에 인수, Stargate 벤처를 위한 CPU 설계 인력 확보 목적
- Ampere 실패 원인:
- Altra 세대는 ARM 네이티브 소프트웨어 미성숙 시기에 너무 이른 출시
- AmpereOne은 다수 지연으로 2024년 하반기에야 가용, 이미 하이퍼스케일러 ARM CPU가 본격화되고 AMD가 3~4배 높은 코어당 성능으로 192코어 제공
- Oracle의 Ampere CPU 구매액: FY2023 4800만 달러 → FY2024 300만 달러 → FY2025 370만 달러로 급감
ARM Phoenix
- ARM이 2026년 풀 데이터센터 CPU 설계·판매 사업 진출, 기존 Neoverse CSS 라이선서 고객과 직접 경쟁
- 현재까지 데이터센터 CPU·DPU에 10억 개 이상의 Neoverse 코어 배치, 12개 기업 대상 21건의 CSS 라이선스
- 데이터센터 로열티 수익 전년 대비 2배 이상 성장, 향후 수년 내 CSS가 로열티 수익의 50% 이상 차지 전망
-
Phoenix: 128개 Neoverse V3 코어, ARM CMN 메시, TSMC 3nm 하프 레티클 2개 다이
- 12채널 DDR5(8400MT/s), 96레인 PCIe Gen 6, TDP 250~350W 설정 가능
- 첫 고객은 Meta, OpenAI(Stargate/SoftBank 벤처)와 Cloudflare도 고객 후보
- PCIe6 기반 Accelerator Enablement Kit으로 XPU와 코히런트 공유 메모리 연결 가능
Huawei Kunpeng
-
Kunpeng 920 및 920B
- 초기 세대(Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
-
Kunpeng 920(2019): 64코어 커스텀 TaiShan V110, 2개 TSMC 7nm 컴퓨트 다이, CoWoS-S 패키징(최초의 CPU CoWoS-S 적용)
- 8채널 DDR4, 40 PCIe4 레인, 듀얼 100GbE 통합
- 미국 제재로 TSMC 공급 차단, 차세대 Kunpeng 930 미출시
-
Kunpeng 920B(2024): TaiShan V120 코어에 SMT 지원, 다이당 10개 4코어 클러스터(총 80코어/160스레드)
- 8채널 DDR5, I/O 다이 분리 배치, SMIC N+2 공정으로 재설계(5년 공백)
-
Kunpeng 950 (2026)
-
192코어 신규 LinxiCore(SMT 지원), 96코어 소형 버전도 생산
-
TaiShan 950 SuperPoD 랙 구성: 16개 듀얼소켓 서버, 최대 48TB DDR5(12채널 추정)
- Kunpeng 920B 대비 OLTP 데이터베이스 성능 2.9배 향상(GaussDB Multi-Write 기반)
-
Oracle Exadata 데이터베이스 서버와 중국 금융권 채택 예정
-
SMIC N+3 공정으로 생산 추정
-
Kunpeng 960 (2028 로드맵)
- 고성능 버전: 96코어/192스레드, AI 헤드 노드·데이터베이스용, 코어당 성능 50% 이상 향상
- 고밀도 버전: 가상화·클라우드용 256코어 이상
- 중국 하이퍼스케일러 CPU 시장에서 상당한 점유율 확보 전망