# 알리바바 클라우드, GPU 풀링 시스템 ‘Aegaeon’으로 엔비디아 GPU 사용량 82% 절감

> Clean Markdown view of GeekNews topic #23805. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=23805](https://news.hada.io/topic?id=23805)
- GeekNews Markdown: [https://news.hada.io/topic/23805.md](https://news.hada.io/topic/23805.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-10-21T10:14:20+09:00
- Updated: 2025-10-21T10:14:20+09:00
- Original source: [tomshardware.com](https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent)
- Points: 5
- Comments: 5

## Summary

알리바바 클라우드가 공개한 **Aegaeon GPU 풀링 시스템**은 LLM 추론 단계에서 **GPU 활용 효율을 9배 높이고 사용량을 82% 절감**하며, 제한된 **H20 GPU 환경**에서도 안정적인 성능을 입증했습니다. 핵심은 GPU를 모델 단위가 아닌 **토큰 단위로 가상화해 여러 모델이 동시에 공유**하도록 설계한 점으로, **ServerlessLLM·MuxServe 대비 최대 9배의 goodput 향상**을 달성했습니다. 이는 단순한 하드웨어 확충이 아닌 **소프트웨어적 스케줄링 혁신**으로 AI 인프라 효율을 극대화한 사례로, GPU 공급난 속에서 클라우드 기업들이 주목할 만한 방향을 제시합니다. 개인적으로는 “GPU를 더 사는 대신 더 똑똑하게 쓰는 법”을 보여준 점이 인상적입니다.

## Topic Body

- 알리바바 클라우드가 개발한 **Aegaeon 풀링 시스템**은 **GPU 활용 효율을 9배 높여**, 동일한 LLM 서비스에 필요한 **엔비디아 GPU 수를 82% 줄였음**  
- 이 시스템은 GPU를 모델별로 고정하지 않고 **토큰 단위로 가상화하여 공유 풀에서 동적으로 스케줄링**함으로써 **여러 모델이 한 GPU를 동시에 사용**하도록 지원함  
- **72B 파라미터 규모의 다양한 LLM**을 포함한 실서비스 테스트에서 GPU 수가 **1,192개 → 213개**로 감소함  
- **H20 GPU 제한적 공급 환경**에서도 안정적인 성능을 유지했으며, **ServerlessLLM·MuxServe** 대비 **1.5~9배의 goodput 향상**을 기록함  
- 논문은 **서울 SOSP 2025 학회 발표**를 통해 공개되었으며, 향후 **GPU 자원 부족에 직면한 글로벌 클라우드 기업들에 큰 관심**을 불러올 것으로 예상됨  
  
---  
### Aegaeon 풀링 시스템과 그 배경  
- 알리바바 클라우드는 **Aegaeon 풀링 시스템**을 통해 자사 Model Studio 마켓플레이스에서 수 개월간 진행된 베타 테스트에서 **Nvidia GPU 사용량을 82% 절감**하는 성과를 발표함  
- 이 결과는 서울에서 개최된 2025 ACM Symposium on Operating Systems(SOSP)에서 **동료 심사를 거쳐 공개된 논문**을 통해 소개됨  
- 해당 기술은 **중국 내 Nvidia H20과 같은 최신 GPU 공급이 제한적인 환경**에서 클라우드 서비스 제공자가 기존 자원을 최대한 활용할 수 있게 하는 데 목적이 있음  
  
### Aegaeon: GPU 활용 효율을 극대화한 추론 전용 스케줄러  
- Aegaeon은 모델 학습 효율을 높이는 시스템이 아닌, **추론 단계에서 GPU 자원을 극대화**하기 위한 스케줄러임  
  - 기존 방식은 **모델 1개당 GPU 1개를 고정**하는 구조였으나, Aegaeon은 이를 **토큰 단위로 분할해 여러 모델이 동시 사용**하도록 설계됨  
  - GPU의 **‘goodput’(실효 처리량)** 을 최대 9배까지 향상시키며, **불규칙한 LLM 요청 패턴에도 안정적 처리율**을 달성함  
  
### 테스트 결과 및 절감 효과  
- **Peking University 및 Alibaba 인프라 부문 연구진**(CTO 징런 저우 포함)이 참여한 다개월 베타 테스트를 통해 성능 입증  
  - 테스트 기간 동안 **1,192개 GPU를 213개로 축소**해 동일한 수준의 LLM 추론 워크로드를 유지함  
  - 최대 72B 파라미터 규모 모델을 포함한 **다수의 LLM 동시 서비스 환경**에서도 높은 효율을 보임  
- 테스트는 **미국 수출 통제 이후 중국 내 합법적으로 구매 가능한 H20 GPU** 기반으로 수행됨  
  - **South China Morning Post** 보도에 따르면 H20은 현재 **중국 내 주요 대체 가속기**로 사용 중임  
  
### 기술적 구성: 두 가지 핵심 전략  
- **1\. 다중 모델 패킹(Multi-model packing)**: 한 GPU에 여러 모델을 동시에 배치해, 요청 간 유휴 자원을 최소화함  
- **2\. 토큰 단위 자동 확장(Token-level autoscaling)**: 요청 전체가 아닌 **생성 중인 출력 토큰 수에 따라 실시간으로 연산량을 조정**함  
  - 이를 통해 불필요한 GPU 예약을 제거하고, 처리량 대비 비용 효율을 극대화함  
- 벤치마크 결과, **ServerlessLLM·MuxServe 대비 1.5~9배 성능 향상**을 달성함  
  
### 네트워크 및 스택 통합  
- 논문에는 사용된 **네트워크 구조(eRDMA 기반)** 세부 내용이 명시되지 않았으나,  
  - 알리바바는 자사 **eRDMA(Elastic RDMA) 네트워크와 고집적 GPU 스택**을 갖춘 것으로 알려져 있음  
  - 따라서 이번 결과는 **고도로 최적화된 내부 인프라 통합 환경**에 의존할 가능성이 있음  
  
### 시사점  
- **GPU 공급이 제한된 중국 시장**에서 **기존 칩 자원으로 최대 효율을 끌어내는 전략적 돌파구**로 평가됨  
- 이 접근은 향후 **AWS, Google Cloud, Microsoft Azure 등 하이퍼스케일러**에게도 **추론 효율 개선을 위한 벤치마크 모델**이 될 가능성이 높음  
- GPU 하드웨어 자체의 한계를 넘어, **소프트웨어적 스케줄링·가상화 기술**이 AI 인프라 경쟁력의 새로운 축으로 부상함

## Comments



### Comment 45225

- Author: jjpark78
- Created: 2025-10-21T11:05:21+09:00
- Points: 1

엔비디아 주식 떨어지는 소리가 어디서 들리네요..

### Comment 45238

- Author: jeongsoop
- Created: 2025-10-21T14:09:07+09:00
- Points: 1
- Parent comment: 45225
- Depth: 1

보통 이럴 경우 80% 절감하면 GPU를 1/5만 구입하는게 되지 않고 5배 더 많은 데이터를 처리하는 방향으로 진행되죠.

### Comment 45228

- Author: shakespeares
- Created: 2025-10-21T11:43:29+09:00
- Points: 1
- Parent comment: 45225
- Depth: 1

과연 그럴까요? 이면이 있지 않을까요?

### Comment 45222

- Author: xguru
- Created: 2025-10-21T10:24:49+09:00
- Points: 1

논문 [Aegaeon: Effective GPU Pooling and Scheduling for Multi-LLM Inference](https://dl.acm.org/doi/10.1145/3731569.3764815)

### Comment 45219

- Author: neo
- Created: 2025-10-21T10:14:21+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45643163) 
* Alibaba Cloud가 비인기 모델 서비스를 위해 사용되는 Nvidia GPU를 82%까지 줄였다고 밝힘, 연구에 따르면 Alibaba Cloud 마켓플레이스에서 전체 요청의 1.35%만을 위해 17.7%의 GPU가 할당되고 있었으며, 이전엔 1192개의 GPU가 필요했으나 이제는 같은 요청을 213개의 GPU만으로 처리함
  * 이게 정확히 어떻게 작동하는지 이해가 잘 되지 않음, 사용하지 않는 동안에 GPU 위에 모델이 그냥 올려진 채로 대기하는 것인지 궁금함, 이런 작업은 보통 동적으로 할당될 거라 생각했음, 물론 모델을 계속 불러오는 횟수를 줄이는 게 이점이 있지만, 모델+GPU가 몇 분 이상 유휴 상태라면 자원을 해제할 수도 있다고 봄, 실제로 나는 AI 분야가 아니라서 SLURM으로 매번 노드를 할당받아 쓰는 것에 익숙함
  * 논문의 Figure 1(a)에 따르면 17.7%는 전체 3만 개 GPU 대비 비율이고(즉, 5310개의 GPU가 1.35% 요청을 처리함), 이 감소폭은 47개 모델만 있는 작은 배타적 베타 환경에서 측정된 수치임, 733개 'cold' 모델 전체로 모형 수 기준 단순 계산하면 3321개 GPU가 필요해져 이전 대비 37.5% 절감, 전체 3만 클러스터 기준으론 6.6% 절감에 해당함
  * 과거에는 소프트웨어 및 컴퓨터 엔지니어들이 문제에 정면으로 부딪치며 창의적으로 알고리즘 및 솔루션을 설계했음, 미국의 반도체 산업 규제로 인해 중국 엔지니어들도 과거 실리콘밸리처럼 스스로 혁신하고 문제를 해결하는 방향으로 가고 있음
* 핵심 내용은, Alibaba Qwen과 DeepSeek 같은 일부 소수의 모델만 추론 요청이 많고 그 외 대부분 모델은 간헐적으로 사용되어 전체 GPU 자원 중 17.7%가 전체 요청의 1.35%만 위해 쓰여 비효율적임
  * 이런 기타 모델들은 아마도 크기가 훨씬 작을 것임
* 더 나은 링크는 [Tom's Hardware 기사](https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent)임, 논문은 [여기서](https://dl.acm.org/doi/10.1145/3731569.3764815) 볼 수 있음
  * 위 URL(원래는 SCMP 기사였음)을 해당 링크로 변경했고, 논문 링크도 본문 상단에 반영할 예정임
* 미국이 중국의 기술 발전을 늦추려는 시도는 중국이 같은 경로로 따라오지 못하도록 막는 데 성공했지만, 아이러니하게도 중국이 다른 방식으로 혁신하게 만들 가능성이 있음, 만약 중국 기업이 그 혁신을 오픈소스화한다면 결국 그로 인해 전체적으로 더 높은 효율과 발전을 얻게 될 수 있고, 장기적으로는 미국의 '문명식 게이트키핑'에 감사하게 될 수도 있음
  * 역사적으로 기술을 차단해도 중국은 몇 년 만에 그 기술에 도달하거나 더 나은 것을 만들어냄, 서구의 시각에는 오만함이 있고 실제로 웨스턴 기업의 많은 제품 개발에도 중국 과학자나 제조의 공헌도가 상당하며 이들이 없었다면 아무것도 없었을 것임, AI 연구자 명단을 봐도 중국계가 상당히 많음
  * 미국 내 반이민 정서가 오히려 미국의 혁신에 가장 큰 장애가 될 것임, 실제로 혁신을 만들어내는 인재들이 떠나고 있음, 미국이 전 세계 인재 영입이라는 장점 없이 인구 규모 등에서 불리해질 수 있음, 세계는 새로운 리더를 찾고 있고 중국이 아직 그 자리에 오르지 않았지만 몇 년 후엔 가능성 있음, 다만 중국의 약점은 대외 야망 부족과 역내(타이완·남중국해)에만 집착하는 경향임
  * 이제 미국이 중국의 발전을 더는 막지 못함, 중국 내에서도 칩 수입을 금지해 미국의 조치가 무의미해짐, 관련 기사(2025년 Nvidia AI 칩 중국 수입 금지): [CNBC 기사](https://www.cnbc.com/2025/09/17/nvidia-ceo-disappointed-after-reports-china-has-banned-its-ai-chips.html)
  * 이 모든 상황이 2차 세계대전 후 일본이 적은 자원으로 뛰어난 연비의 엔진이나 경량 자동차를 만든 것을 떠올리게 함, 이런 제약이 미국이나 일부 유럽엔 없었기에 그 차이가 컸고, 결과적으로 미국차는 경쟁력이 떨어졌음
  * '부메랑 효과'를 말하고 있지만 이미 늦었다고 생각함, 2024년 웨스턴 랩들이 압도했지만, 2025년이 되자 중국에서는 deepseek, qwen, kimi, glm, ernie 등 다양한 state-of-the-art 모델이 연이어 등장 중임, 이제 웨스턴 랩들보다 더 많은 중국 랩들이 최신 모델을 쏟아내고 있음
* 중국계 기업들의 엔지니어링/리서치 블로그에 대해 궁금함, 예전엔 서구 기업 블로그를 많이 봤지만 이제 FAANG이 아닌 쪽의 케이스 스터디를 벤치마크로 삼고 싶어지는 시점임
  * 중국 기업 공식 블로그에도 이런 최적화 사례를 다루는 아티클이 종종 올라오긴 하지만, 마케팅 글들과 섞여있을 때가 많음, 또한 현지 포럼에도 관련 내용이 많을 것으로 추정하지만 영어 사용자는 쉽게 접근하기 어려움, 예시: [Alibaba Cloud 대규모 쿠버네티스 클러스터 최적화 사례](https://www.alibabacloud.com/blog/how-does-alibaba-ensure-the-performance-of-system-components-in-a-10000-node-kubernetes-cluster_595469)
* 아주 작은 모델만 갖고 실험 중인 것 같음, 대형 모델로 정말 확장 가능한지 의문임
  * 모두 LLM이니 엄청 작지는 않은 셈임, 현재 운영 환경은 여러 지역에 걸쳐 213개 H20 GPU 클러스터에서 1.8–7B 모델 28개(TP=1), 32–72B 모델 19개(TP=4)를 서비스 중임
* 이 가상 GPU 시스템은 별도의 스케줄러(작업 관리기)로 보임, 데이터 이동에 따른 레이턴시(지연)가 어느 정도 생기는지 궁금함
* 이런 방식이 다른 워크로드에도 적용될 수 있을지 궁금함
* 결국 불필요한 행동(비효율적 자원 사용)을 중단한 것으로 들림
* 자원이 풍부한 기관이라면 사전학습된 모델을 새 하드웨어에 옮겨서 'NVDA 세금'(Nvidia 독점으로 인한 비용)을 절감할 수 있음, 하지만 연구 및 모델 훈련 자체는 성숙한 NVDA 생태계 밖에서는 일어나기 어렵다고 봄
