4P by GN⁺ 20시간전 | ★ favorite | 댓글 5개
  • 알리바바 클라우드가 개발한 Aegaeon 풀링 시스템GPU 활용 효율을 9배 높여, 동일한 LLM 서비스에 필요한 엔비디아 GPU 수를 82% 줄였음
  • 이 시스템은 GPU를 모델별로 고정하지 않고 토큰 단위로 가상화하여 공유 풀에서 동적으로 스케줄링함으로써 여러 모델이 한 GPU를 동시에 사용하도록 지원함
  • 72B 파라미터 규모의 다양한 LLM을 포함한 실서비스 테스트에서 GPU 수가 1,192개 → 213개로 감소함
  • H20 GPU 제한적 공급 환경에서도 안정적인 성능을 유지했으며, ServerlessLLM·MuxServe 대비 1.5~9배의 goodput 향상을 기록함
  • 논문은 서울 SOSP 2025 학회 발표를 통해 공개되었으며, 향후 GPU 자원 부족에 직면한 글로벌 클라우드 기업들에 큰 관심을 불러올 것으로 예상됨

Aegaeon 풀링 시스템과 그 배경

  • 알리바바 클라우드는 Aegaeon 풀링 시스템을 통해 자사 Model Studio 마켓플레이스에서 수 개월간 진행된 베타 테스트에서 Nvidia GPU 사용량을 82% 절감하는 성과를 발표함
  • 이 결과는 서울에서 개최된 2025 ACM Symposium on Operating Systems(SOSP)에서 동료 심사를 거쳐 공개된 논문을 통해 소개됨
  • 해당 기술은 중국 내 Nvidia H20과 같은 최신 GPU 공급이 제한적인 환경에서 클라우드 서비스 제공자가 기존 자원을 최대한 활용할 수 있게 하는 데 목적이 있음

Aegaeon: GPU 활용 효율을 극대화한 추론 전용 스케줄러

  • Aegaeon은 모델 학습 효율을 높이는 시스템이 아닌, 추론 단계에서 GPU 자원을 극대화하기 위한 스케줄러임
    • 기존 방식은 모델 1개당 GPU 1개를 고정하는 구조였으나, Aegaeon은 이를 토큰 단위로 분할해 여러 모델이 동시 사용하도록 설계됨
    • GPU의 ‘goodput’(실효 처리량) 을 최대 9배까지 향상시키며, 불규칙한 LLM 요청 패턴에도 안정적 처리율을 달성함

테스트 결과 및 절감 효과

  • Peking University 및 Alibaba 인프라 부문 연구진(CTO 징런 저우 포함)이 참여한 다개월 베타 테스트를 통해 성능 입증
    • 테스트 기간 동안 1,192개 GPU를 213개로 축소해 동일한 수준의 LLM 추론 워크로드를 유지함
    • 최대 72B 파라미터 규모 모델을 포함한 다수의 LLM 동시 서비스 환경에서도 높은 효율을 보임
  • 테스트는 미국 수출 통제 이후 중국 내 합법적으로 구매 가능한 H20 GPU 기반으로 수행됨
    • South China Morning Post 보도에 따르면 H20은 현재 중국 내 주요 대체 가속기로 사용 중임

기술적 구성: 두 가지 핵심 전략

  • 1. 다중 모델 패킹(Multi-model packing): 한 GPU에 여러 모델을 동시에 배치해, 요청 간 유휴 자원을 최소화함
  • 2. 토큰 단위 자동 확장(Token-level autoscaling): 요청 전체가 아닌 생성 중인 출력 토큰 수에 따라 실시간으로 연산량을 조정
    • 이를 통해 불필요한 GPU 예약을 제거하고, 처리량 대비 비용 효율을 극대화함
  • 벤치마크 결과, ServerlessLLM·MuxServe 대비 1.5~9배 성능 향상을 달성함

네트워크 및 스택 통합

  • 논문에는 사용된 네트워크 구조(eRDMA 기반) 세부 내용이 명시되지 않았으나,
    • 알리바바는 자사 eRDMA(Elastic RDMA) 네트워크와 고집적 GPU 스택을 갖춘 것으로 알려져 있음
    • 따라서 이번 결과는 고도로 최적화된 내부 인프라 통합 환경에 의존할 가능성이 있음

시사점

  • GPU 공급이 제한된 중국 시장에서 기존 칩 자원으로 최대 효율을 끌어내는 전략적 돌파구로 평가됨
  • 이 접근은 향후 AWS, Google Cloud, Microsoft Azure 등 하이퍼스케일러에게도 추론 효율 개선을 위한 벤치마크 모델이 될 가능성이 높음
  • GPU 하드웨어 자체의 한계를 넘어, 소프트웨어적 스케줄링·가상화 기술이 AI 인프라 경쟁력의 새로운 축으로 부상함

엔비디아 주식 떨어지는 소리가 어디서 들리네요..

보통 이럴 경우 80% 절감하면 GPU를 1/5만 구입하는게 되지 않고 5배 더 많은 데이터를 처리하는 방향으로 진행되죠.

과연 그럴까요? 이면이 있지 않을까요?

Hacker News 의견
  • Alibaba Cloud가 비인기 모델 서비스를 위해 사용되는 Nvidia GPU를 82%까지 줄였다고 밝힘, 연구에 따르면 Alibaba Cloud 마켓플레이스에서 전체 요청의 1.35%만을 위해 17.7%의 GPU가 할당되고 있었으며, 이전엔 1192개의 GPU가 필요했으나 이제는 같은 요청을 213개의 GPU만으로 처리함
    • 이게 정확히 어떻게 작동하는지 이해가 잘 되지 않음, 사용하지 않는 동안에 GPU 위에 모델이 그냥 올려진 채로 대기하는 것인지 궁금함, 이런 작업은 보통 동적으로 할당될 거라 생각했음, 물론 모델을 계속 불러오는 횟수를 줄이는 게 이점이 있지만, 모델+GPU가 몇 분 이상 유휴 상태라면 자원을 해제할 수도 있다고 봄, 실제로 나는 AI 분야가 아니라서 SLURM으로 매번 노드를 할당받아 쓰는 것에 익숙함
    • 논문의 Figure 1(a)에 따르면 17.7%는 전체 3만 개 GPU 대비 비율이고(즉, 5310개의 GPU가 1.35% 요청을 처리함), 이 감소폭은 47개 모델만 있는 작은 배타적 베타 환경에서 측정된 수치임, 733개 'cold' 모델 전체로 모형 수 기준 단순 계산하면 3321개 GPU가 필요해져 이전 대비 37.5% 절감, 전체 3만 클러스터 기준으론 6.6% 절감에 해당함
    • 과거에는 소프트웨어 및 컴퓨터 엔지니어들이 문제에 정면으로 부딪치며 창의적으로 알고리즘 및 솔루션을 설계했음, 미국의 반도체 산업 규제로 인해 중국 엔지니어들도 과거 실리콘밸리처럼 스스로 혁신하고 문제를 해결하는 방향으로 가고 있음
  • 핵심 내용은, Alibaba Qwen과 DeepSeek 같은 일부 소수의 모델만 추론 요청이 많고 그 외 대부분 모델은 간헐적으로 사용되어 전체 GPU 자원 중 17.7%가 전체 요청의 1.35%만 위해 쓰여 비효율적임
    • 이런 기타 모델들은 아마도 크기가 훨씬 작을 것임
  • 더 나은 링크는 Tom's Hardware 기사임, 논문은 여기서 볼 수 있음
    • 위 URL(원래는 SCMP 기사였음)을 해당 링크로 변경했고, 논문 링크도 본문 상단에 반영할 예정임
  • 미국이 중국의 기술 발전을 늦추려는 시도는 중국이 같은 경로로 따라오지 못하도록 막는 데 성공했지만, 아이러니하게도 중국이 다른 방식으로 혁신하게 만들 가능성이 있음, 만약 중국 기업이 그 혁신을 오픈소스화한다면 결국 그로 인해 전체적으로 더 높은 효율과 발전을 얻게 될 수 있고, 장기적으로는 미국의 '문명식 게이트키핑'에 감사하게 될 수도 있음
    • 역사적으로 기술을 차단해도 중국은 몇 년 만에 그 기술에 도달하거나 더 나은 것을 만들어냄, 서구의 시각에는 오만함이 있고 실제로 웨스턴 기업의 많은 제품 개발에도 중국 과학자나 제조의 공헌도가 상당하며 이들이 없었다면 아무것도 없었을 것임, AI 연구자 명단을 봐도 중국계가 상당히 많음
    • 미국 내 반이민 정서가 오히려 미국의 혁신에 가장 큰 장애가 될 것임, 실제로 혁신을 만들어내는 인재들이 떠나고 있음, 미국이 전 세계 인재 영입이라는 장점 없이 인구 규모 등에서 불리해질 수 있음, 세계는 새로운 리더를 찾고 있고 중국이 아직 그 자리에 오르지 않았지만 몇 년 후엔 가능성 있음, 다만 중국의 약점은 대외 야망 부족과 역내(타이완·남중국해)에만 집착하는 경향임
    • 이제 미국이 중국의 발전을 더는 막지 못함, 중국 내에서도 칩 수입을 금지해 미국의 조치가 무의미해짐, 관련 기사(2025년 Nvidia AI 칩 중국 수입 금지): CNBC 기사
    • 이 모든 상황이 2차 세계대전 후 일본이 적은 자원으로 뛰어난 연비의 엔진이나 경량 자동차를 만든 것을 떠올리게 함, 이런 제약이 미국이나 일부 유럽엔 없었기에 그 차이가 컸고, 결과적으로 미국차는 경쟁력이 떨어졌음
    • '부메랑 효과'를 말하고 있지만 이미 늦었다고 생각함, 2024년 웨스턴 랩들이 압도했지만, 2025년이 되자 중국에서는 deepseek, qwen, kimi, glm, ernie 등 다양한 state-of-the-art 모델이 연이어 등장 중임, 이제 웨스턴 랩들보다 더 많은 중국 랩들이 최신 모델을 쏟아내고 있음
  • 중국계 기업들의 엔지니어링/리서치 블로그에 대해 궁금함, 예전엔 서구 기업 블로그를 많이 봤지만 이제 FAANG이 아닌 쪽의 케이스 스터디를 벤치마크로 삼고 싶어지는 시점임
    • 중국 기업 공식 블로그에도 이런 최적화 사례를 다루는 아티클이 종종 올라오긴 하지만, 마케팅 글들과 섞여있을 때가 많음, 또한 현지 포럼에도 관련 내용이 많을 것으로 추정하지만 영어 사용자는 쉽게 접근하기 어려움, 예시: Alibaba Cloud 대규모 쿠버네티스 클러스터 최적화 사례
  • 아주 작은 모델만 갖고 실험 중인 것 같음, 대형 모델로 정말 확장 가능한지 의문임
    • 모두 LLM이니 엄청 작지는 않은 셈임, 현재 운영 환경은 여러 지역에 걸쳐 213개 H20 GPU 클러스터에서 1.8–7B 모델 28개(TP=1), 32–72B 모델 19개(TP=4)를 서비스 중임
  • 이 가상 GPU 시스템은 별도의 스케줄러(작업 관리기)로 보임, 데이터 이동에 따른 레이턴시(지연)가 어느 정도 생기는지 궁금함
  • 이런 방식이 다른 워크로드에도 적용될 수 있을지 궁금함
  • 결국 불필요한 행동(비효율적 자원 사용)을 중단한 것으로 들림
  • 자원이 풍부한 기관이라면 사전학습된 모델을 새 하드웨어에 옮겨서 'NVDA 세금'(Nvidia 독점으로 인한 비용)을 절감할 수 있음, 하지만 연구 및 모델 훈련 자체는 성숙한 NVDA 생태계 밖에서는 일어나기 어렵다고 봄