GN⁺: 속도, 확장성, 안정성: 25년간의 Google 데이터센터 네트워킹 진화 과정
(cloud.google.com)- 구글의 네트워크는 하루아침에 만들어진 것이 아니며, 25년간의 엔지니어링 혁신과 이정표를 통해 현재의 5세대 Jupiter 데이터 센터 네트워크 아키텍처로 발전해 옴
- 현재 Jupiter 네트워크는 13 페타비트초의 양방향 대역폭으로 확장 가능함. 이는 지구상의 모든 80억 명이 동시에 화상 통화(@1.5Mb/s)를 할 수 있는 수준
주요 원칙들
- 뭐든 어디든: 구글의 데이터 센터 네트워크는 대규모 작업을 같은 네트워크 패브릭 내 10만 개 이상의 서버 중 어디에든 배치할 수 있도록 지원함. 이 같은 규모는 내부 및 외부 워크로드에 대한 애플리케이션 성능을 향상시키고 내부 단편화를 제거함
- 예측 가능하고 낮은 지연 시간: 대역폭 헤드룸을 프로비저닝하고, 99.999%의 네트워크 가용성을 유지하며, 엔드 호스트와 패브릭 협력을 통해 정체를 사전에 관리함으로써 일관된 성능과 꼬리 지연 시간 최소화를 우선시 함
- 소프트웨어 정의 및 시스템 중심: 유연성과 민첩성을 위해 소프트웨어 정의 네트워킹(SDN)을 활용하여 글로벌 네트워크에서 2주마다 수십 가지 새로운 기능을 검증하고 전 세계적으로 릴리스함
- 점진적 진화 및 동적 토폴로지: 점진적 진화는 네트워크를 전체적으로 중단하지 않고 세부적으로 새로 고칠 수 있도록 도와주며, 동적 토폴로지는 변화하는 워크로드 요구 사항에 지속적으로 적응할 수 있도록 도움. 광 회로 스위칭과 SDN의 조합은 물리적 업그레이드와 단일 패브릭에서 여러 하드웨어 세대를 지원하는 끊임없이 진화하는 이기종 네트워크를 지원함
- 트래픽 엔지니어링 및 애플리케이션 중심 QoS: 트래픽 흐름을 최적화하고 서비스 품질을 보장하는 것은 각 애플리케이션의 요구 사항에 맞게 네트워크를 맞춤 설정하는 데 도움 됨
- 구글의 자체 SDN Jupiter 네트워크는 이전 세대 대비 50배 이상의 안정성을 제공함
진화의 역사
2015년 - 최초의 페타비트 네트워크 Jupiter
- 구글은 상용 스위치 실리콘, Clos 토폴로지 및 소프트웨어 정의 네트워킹(SDN)을 활용하여 Jupiter 데이터 센터 네트워크가 1.3 Pb/s의 총 대역폭으로 확장된다는 것을 보여줌
- 당시 구글 데이터 센터 하나의 이 데이터 전송 속도는 글로벌 인터넷의 예상 총 IP 트래픽 데이터 속도보다 더 많았음
2022년 - 6 페타비트초 지원
- 구글은 Jupiter 네트워크가 광 회로 스위칭(OCS), 파장 분할 다중화(WDM) 및 고도로 확장 가능한 Orion SDN 컨트롤러의 심층 통합을 통해 6Pb/s 이상으로 확장된다고 발표함
- 이러한 기술은 점진적인 네트워크 구축, 향상된 성능, 비용 절감, 전력 소비 감소, 동적 트래픽 관리 및 원활한 업그레이드를 포함한 다양한 발전을 가능케 함
2023년 - 13 페타비트초 네트워크
- 구글은 네트워크 코어에서 기본 400Gb/s 링크 속도를 지원하도록 Jupiter를 더욱 향상시킴
- Jupiter 네트워크의 기본 구성 요소(집계 블록이라고 함)는 이제 엔드 호스트와 데이터 센터의 나머지 부분에 대해 400Gb/s 양방향 논블로킹 대역폭을 지원하는 512개의 포트로 구성됨
- 총 양방향 대역폭 64*204.8 Tb/s = 13.1 Pb/s을 위해 64개의 이러한 블록을 지원함
- 이 기술은 1년 이상 구글의 프로덕션 데이터 센터에 전력을 공급하고 있으며 인공 지능, 기계 학습, 웹 검색 및 기타 데이터 집약적 애플리케이션의 급속한 발전을 주도하고 있음
2024년 이후 - AI 시대의 극한 네트워킹
- 구글은 향후 AI를 지원할 차세대 네트워크 인프라에 대한 방향을 이미 설정하고 있음
- NVIDIA ConnectX-7 네트워킹을 특징으로 하는 차세대 GPU 기반 A3 울트라 VM을 위한 네트워킹 인프라 요구 사항에 대해 작업 중
- 이는 RoCE(RDMA over converged ethernet)를 통해 GPU 간 트래픽에 대해 서버당 논블로킹 3.2 Tbps를 지원함
- NVIDIA GB200 NVL72에 기반한 미래 제품에 대한 작업도 진행 중
향후 수년간 포트/네트워크 전반 대역폭과 규모의 유의미한 발전, 엔드호스트 통합 강화, 실시간 토폴로지 엔지니어링, 컴퓨팅/스토리지 스택과의 심층 통합, 호스트 기반 로드밸런싱 개선 등을 통해 변혁적 애플리케이션과 서비스를 지원할 예정