Alibaba Cloud가 비인기 모델 서비스를 위해 사용되는 Nvidia GPU를 82%까지 줄였다고 밝힘, 연구에 따르면 Alibaba Cloud 마켓플레이스에서 전체 요청의 1.35%만을 위해 17.7%의 GPU가 할당되고 있었으며, 이전엔 1192개의 GPU가 필요했으나 이제는 같은 요청을 213개의 GPU만으로 처리함
이게 정확히 어떻게 작동하는지 이해가 잘 되지 않음, 사용하지 않는 동안에 GPU 위에 모델이 그냥 올려진 채로 대기하는 것인지 궁금함, 이런 작업은 보통 동적으로 할당될 거라 생각했음, 물론 모델을 계속 불러오는 횟수를 줄이는 게 이점이 있지만, 모델+GPU가 몇 분 이상 유휴 상태라면 자원을 해제할 수도 있다고 봄, 실제로 나는 AI 분야가 아니라서 SLURM으로 매번 노드를 할당받아 쓰는 것에 익숙함
논문의 Figure 1(a)에 따르면 17.7%는 전체 3만 개 GPU 대비 비율이고(즉, 5310개의 GPU가 1.35% 요청을 처리함), 이 감소폭은 47개 모델만 있는 작은 배타적 베타 환경에서 측정된 수치임, 733개 'cold' 모델 전체로 모형 수 기준 단순 계산하면 3321개 GPU가 필요해져 이전 대비 37.5% 절감, 전체 3만 클러스터 기준으론 6.6% 절감에 해당함
과거에는 소프트웨어 및 컴퓨터 엔지니어들이 문제에 정면으로 부딪치며 창의적으로 알고리즘 및 솔루션을 설계했음, 미국의 반도체 산업 규제로 인해 중국 엔지니어들도 과거 실리콘밸리처럼 스스로 혁신하고 문제를 해결하는 방향으로 가고 있음
핵심 내용은, Alibaba Qwen과 DeepSeek 같은 일부 소수의 모델만 추론 요청이 많고 그 외 대부분 모델은 간헐적으로 사용되어 전체 GPU 자원 중 17.7%가 전체 요청의 1.35%만 위해 쓰여 비효율적임
위 URL(원래는 SCMP 기사였음)을 해당 링크로 변경했고, 논문 링크도 본문 상단에 반영할 예정임
미국이 중국의 기술 발전을 늦추려는 시도는 중국이 같은 경로로 따라오지 못하도록 막는 데 성공했지만, 아이러니하게도 중국이 다른 방식으로 혁신하게 만들 가능성이 있음, 만약 중국 기업이 그 혁신을 오픈소스화한다면 결국 그로 인해 전체적으로 더 높은 효율과 발전을 얻게 될 수 있고, 장기적으로는 미국의 '문명식 게이트키핑'에 감사하게 될 수도 있음
역사적으로 기술을 차단해도 중국은 몇 년 만에 그 기술에 도달하거나 더 나은 것을 만들어냄, 서구의 시각에는 오만함이 있고 실제로 웨스턴 기업의 많은 제품 개발에도 중국 과학자나 제조의 공헌도가 상당하며 이들이 없었다면 아무것도 없었을 것임, AI 연구자 명단을 봐도 중국계가 상당히 많음
미국 내 반이민 정서가 오히려 미국의 혁신에 가장 큰 장애가 될 것임, 실제로 혁신을 만들어내는 인재들이 떠나고 있음, 미국이 전 세계 인재 영입이라는 장점 없이 인구 규모 등에서 불리해질 수 있음, 세계는 새로운 리더를 찾고 있고 중국이 아직 그 자리에 오르지 않았지만 몇 년 후엔 가능성 있음, 다만 중국의 약점은 대외 야망 부족과 역내(타이완·남중국해)에만 집착하는 경향임
이제 미국이 중국의 발전을 더는 막지 못함, 중국 내에서도 칩 수입을 금지해 미국의 조치가 무의미해짐, 관련 기사(2025년 Nvidia AI 칩 중국 수입 금지): CNBC 기사
이 모든 상황이 2차 세계대전 후 일본이 적은 자원으로 뛰어난 연비의 엔진이나 경량 자동차를 만든 것을 떠올리게 함, 이런 제약이 미국이나 일부 유럽엔 없었기에 그 차이가 컸고, 결과적으로 미국차는 경쟁력이 떨어졌음
'부메랑 효과'를 말하고 있지만 이미 늦었다고 생각함, 2024년 웨스턴 랩들이 압도했지만, 2025년이 되자 중국에서는 deepseek, qwen, kimi, glm, ernie 등 다양한 state-of-the-art 모델이 연이어 등장 중임, 이제 웨스턴 랩들보다 더 많은 중국 랩들이 최신 모델을 쏟아내고 있음
중국계 기업들의 엔지니어링/리서치 블로그에 대해 궁금함, 예전엔 서구 기업 블로그를 많이 봤지만 이제 FAANG이 아닌 쪽의 케이스 스터디를 벤치마크로 삼고 싶어지는 시점임
중국 기업 공식 블로그에도 이런 최적화 사례를 다루는 아티클이 종종 올라오긴 하지만, 마케팅 글들과 섞여있을 때가 많음, 또한 현지 포럼에도 관련 내용이 많을 것으로 추정하지만 영어 사용자는 쉽게 접근하기 어려움, 예시: Alibaba Cloud 대규모 쿠버네티스 클러스터 최적화 사례
아주 작은 모델만 갖고 실험 중인 것 같음, 대형 모델로 정말 확장 가능한지 의문임
모두 LLM이니 엄청 작지는 않은 셈임, 현재 운영 환경은 여러 지역에 걸쳐 213개 H20 GPU 클러스터에서 1.8–7B 모델 28개(TP=1), 32–72B 모델 19개(TP=4)를 서비스 중임
이 가상 GPU 시스템은 별도의 스케줄러(작업 관리기)로 보임, 데이터 이동에 따른 레이턴시(지연)가 어느 정도 생기는지 궁금함
이런 방식이 다른 워크로드에도 적용될 수 있을지 궁금함
결국 불필요한 행동(비효율적 자원 사용)을 중단한 것으로 들림
자원이 풍부한 기관이라면 사전학습된 모델을 새 하드웨어에 옮겨서 'NVDA 세금'(Nvidia 독점으로 인한 비용)을 절감할 수 있음, 하지만 연구 및 모델 훈련 자체는 성숙한 NVDA 생태계 밖에서는 일어나기 어렵다고 봄
Hacker News 의견