알리바바 클라우드, GPU 풀링 시스템 ‘Aegaeon

▲

GN⁺ 6달전 | parent | ★ favorite | on: 알리바바 클라우드, GPU 풀링 시스템 ‘Aegaeon’으로 엔비디아 GPU 사용량 82% 절감(tomshardware.com)

Hacker News 의견

Alibaba Cloud가 비인기 모델 서비스를 위해 사용되는 Nvidia GPU를 82%까지 줄였다고 밝힘, 연구에 따르면 Alibaba Cloud 마켓플레이스에서 전체 요청의 1.35%만을 위해 17.7%의 GPU가 할당되고 있었으며, 이전엔 1192개의 GPU가 필요했으나 이제는 같은 요청을 213개의 GPU만으로 처리함
- 이게 정확히 어떻게 작동하는지 이해가 잘 되지 않음, 사용하지 않는 동안에 GPU 위에 모델이 그냥 올려진 채로 대기하는 것인지 궁금함, 이런 작업은 보통 동적으로 할당될 거라 생각했음, 물론 모델을 계속 불러오는 횟수를 줄이는 게 이점이 있지만, 모델+GPU가 몇 분 이상 유휴 상태라면 자원을 해제할 수도 있다고 봄, 실제로 나는 AI 분야가 아니라서 SLURM으로 매번 노드를 할당받아 쓰는 것에 익숙함
- 논문의 Figure 1(a)에 따르면 17.7%는 전체 3만 개 GPU 대비 비율이고(즉, 5310개의 GPU가 1.35% 요청을 처리함), 이 감소폭은 47개 모델만 있는 작은 배타적 베타 환경에서 측정된 수치임, 733개 'cold' 모델 전체로 모형 수 기준 단순 계산하면 3321개 GPU가 필요해져 이전 대비 37.5% 절감, 전체 3만 클러스터 기준으론 6.6% 절감에 해당함
- 과거에는 소프트웨어 및 컴퓨터 엔지니어들이 문제에 정면으로 부딪치며 창의적으로 알고리즘 및 솔루션을 설계했음, 미국의 반도체 산업 규제로 인해 중국 엔지니어들도 과거 실리콘밸리처럼 스스로 혁신하고 문제를 해결하는 방향으로 가고 있음
핵심 내용은, Alibaba Qwen과 DeepSeek 같은 일부 소수의 모델만 추론 요청이 많고 그 외 대부분 모델은 간헐적으로 사용되어 전체 GPU 자원 중 17.7%가 전체 요청의 1.35%만 위해 쓰여 비효율적임
- 이런 기타 모델들은 아마도 크기가 훨씬 작을 것임
더 나은 링크는 Tom's Hardware 기사임, 논문은 여기서 볼 수 있음
- 위 URL(원래는 SCMP 기사였음)을 해당 링크로 변경했고, 논문 링크도 본문 상단에 반영할 예정임
미국이 중국의 기술 발전을 늦추려는 시도는 중국이 같은 경로로 따라오지 못하도록 막는 데 성공했지만, 아이러니하게도 중국이 다른 방식으로 혁신하게 만들 가능성이 있음, 만약 중국 기업이 그 혁신을 오픈소스화한다면 결국 그로 인해 전체적으로 더 높은 효율과 발전을 얻게 될 수 있고, 장기적으로는 미국의 '문명식 게이트키핑'에 감사하게 될 수도 있음
- 역사적으로 기술을 차단해도 중국은 몇 년 만에 그 기술에 도달하거나 더 나은 것을 만들어냄, 서구의 시각에는 오만함이 있고 실제로 웨스턴 기업의 많은 제품 개발에도 중국 과학자나 제조의 공헌도가 상당하며 이들이 없었다면 아무것도 없었을 것임, AI 연구자 명단을 봐도 중국계가 상당히 많음
- 미국 내 반이민 정서가 오히려 미국의 혁신에 가장 큰 장애가 될 것임, 실제로 혁신을 만들어내는 인재들이 떠나고 있음, 미국이 전 세계 인재 영입이라는 장점 없이 인구 규모 등에서 불리해질 수 있음, 세계는 새로운 리더를 찾고 있고 중국이 아직 그 자리에 오르지 않았지만 몇 년 후엔 가능성 있음, 다만 중국의 약점은 대외 야망 부족과 역내(타이완·남중국해)에만 집착하는 경향임
- 이제 미국이 중국의 발전을 더는 막지 못함, 중국 내에서도 칩 수입을 금지해 미국의 조치가 무의미해짐, 관련 기사(2025년 Nvidia AI 칩 중국 수입 금지): CNBC 기사
- 이 모든 상황이 2차 세계대전 후 일본이 적은 자원으로 뛰어난 연비의 엔진이나 경량 자동차를 만든 것을 떠올리게 함, 이런 제약이 미국이나 일부 유럽엔 없었기에 그 차이가 컸고, 결과적으로 미국차는 경쟁력이 떨어졌음
- '부메랑 효과'를 말하고 있지만 이미 늦었다고 생각함, 2024년 웨스턴 랩들이 압도했지만, 2025년이 되자 중국에서는 deepseek, qwen, kimi, glm, ernie 등 다양한 state-of-the-art 모델이 연이어 등장 중임, 이제 웨스턴 랩들보다 더 많은 중국 랩들이 최신 모델을 쏟아내고 있음
중국계 기업들의 엔지니어링/리서치 블로그에 대해 궁금함, 예전엔 서구 기업 블로그를 많이 봤지만 이제 FAANG이 아닌 쪽의 케이스 스터디를 벤치마크로 삼고 싶어지는 시점임
- 중국 기업 공식 블로그에도 이런 최적화 사례를 다루는 아티클이 종종 올라오긴 하지만, 마케팅 글들과 섞여있을 때가 많음, 또한 현지 포럼에도 관련 내용이 많을 것으로 추정하지만 영어 사용자는 쉽게 접근하기 어려움, 예시: Alibaba Cloud 대규모 쿠버네티스 클러스터 최적화 사례
아주 작은 모델만 갖고 실험 중인 것 같음, 대형 모델로 정말 확장 가능한지 의문임
- 모두 LLM이니 엄청 작지는 않은 셈임, 현재 운영 환경은 여러 지역에 걸쳐 213개 H20 GPU 클러스터에서 1.8–7B 모델 28개(TP=1), 32–72B 모델 19개(TP=4)를 서비스 중임
이 가상 GPU 시스템은 별도의 스케줄러(작업 관리기)로 보임, 데이터 이동에 따른 레이턴시(지연)가 어느 정도 생기는지 궁금함
이런 방식이 다른 워크로드에도 적용될 수 있을지 궁금함
결국 불필요한 행동(비효율적 자원 사용)을 중단한 것으로 들림
자원이 풍부한 기관이라면 사전학습된 모델을 새 하드웨어에 옮겨서 'NVDA 세금'(Nvidia 독점으로 인한 비용)을 절감할 수 있음, 하지만 연구 및 모델 훈련 자체는 성숙한 NVDA 생태계 밖에서는 일어나기 어렵다고 봄