화웨이, Ascend GPU에서 학습된 오픈 웨이트 모델 공개
(arxiv.org)- Pangu Pro MoE는 화웨이 Ascend NPU 환경에 최적화된 Mixture of Grouped Experts(MoGE) 아키텍처를 도입하여, 분산 환경에서 전문가별 부하 불균형 문제를 효과적으로 해결함
- 이 모델은 총 720억 매개변수 규모로 설계되며, 토큰별 160억 개 파라미터만 활성화해 계산 효율성과 확장성을 대폭 높임
- MoGE 아키텍처는 서로 다른 전문가 그룹별로 균등 분배 및 선택 규칙을 적용해 모든 디바이스에 완벽한 부하 균형을 달성, 추론 및 학습 속도 개선
- 성능 평가 결과, Pangu Pro MoE는 GLM-Z1-32B, Qwen3-32B 등 주요 오픈소스 모델을 앞지르며, Ascend 300I Duo/800I A2 플랫폼에서 최고 수준 추론 효율 및 비용 대비 성능을 보임
- 사전학습과 미세조정, 강화학습 등을 통해 고품질 데이터셋 기반의 다양한 도메인에 대한 강한 추론 및 일반화 능력을 확보함
개요
- 최근 대규모 언어 모델(LLM)에서 Mixture of Experts(MoE) 방식이 채택되며, 계산 비용 상승 없이 모델 파라미터와 학습 용량을 높이는 트렌드가 대두됨
- MoE 구조는 각 입력 토큰마다 일부 전문가(Expert)만 활성화하여 연산을 줄이지만, 현실적으로 몇몇 전문가만 반복적으로 선택되는 전문가 부하 불균형 현상이 존재함
- 이러한 문제는 모델이 여러 디바이스에 분산됐을 때 전체 시스템 효율성을 떨어뜨림
- 기존의 부하 균형 휴리스틱 기법은 부분 개선에 그치며, 완전한 근본적 해결책은 아님
Mixture of Grouped Experts(MoGE) 아키텍처 소개
- MoGE는 전문가(Expert)를 동일 크기의 그룹(Group)으로 나누고, 토큰별로 각 그룹에서 지정된 수의 전문가만을 반드시 활성화하는 그룹 균형 라우팅 전략을 구현함
- 이를 통해 모든 디바이스에 고르게 작업이 분배되며, Imbalance Score(IS)가 0으로 설계상 항상 완벽한 로드 균형을 달성함
- 각 토큰에 대해 모든 전문가의 초기 점수를 글로벌 Softmax 라우터로 산출한 뒤, 각 그룹별로 Top-K′ 전문가만 선택, 미선택 전문가의 점수는 0이 됨
- 이런 구조는 특히 분산 환경의 대규모 모델(수십~백억 파라미터) 에서 추론 및 학습 속도와 자원 활용도를 극대화함
Pangu Pro MoE 모델 및 Ascend 플랫폼 최적화
- 화웨이는 Ascend 300I Duo, 800I A2 NPU 플랫폼에 최적화된 Pangu Pro MoE(총 719억 파라미터, 토큰별 165억 활성화) 를 개발
- extensive한 시스템 시뮬레이션을 바탕으로, 모델 구조 및 하드웨어(HW) 병렬화 구성(텐서/전문가/파이프라인/가상 파이프라인 병렬성) 등 각종 하드웨어 파라미터를 조정해 성능을 극대화함
- 커스텀 연산 커널(MulAttention, SwiftGMM 등)은 Ascend 특성에 맞춰 최적화되어, 메모리 접근, 통신 및 연산 오버헤드를 줄이고, 오퍼레이터별 병목현상 제거 및 대역폭 활용률을 향상시킴
- 배치 크기와 성능 최적화 시뮬레이션 결과, 제약 조건 내에서 최고의 Throughput, 최소 Latency, 최적 통신 효율 등을 보임
사전학습 및 학습 데이터 설계
데이터 구성
- 자체 토크나이저 기반 1.3경(13조) 토큰으로 이뤄진 대규모 고품질 데이터셋을 구축, 웹, 책, 코드, STEM, 산업, 추론, 합성 데이터 등 다양한 소스에서 수집
- 토크나이저는 도메인 균형을 중시하는 전략을 사용해 특수 도메인까지 대표성을 갖춤
학습 단계 및 전략
-
사전학습(Pre-training) 은 세 단계(일반, 추론, annealing)로 진행, 각 단계마다 학습 대상과 데이터 커리큘럼 조정
- 일반 단계: 다양한 분야의 일반 지식과 언어 능력 습득
- 추론 단계: STEM·코딩·복잡 논리문제 등 복잡 추론 데이터 비중 극대화
- annealing 단계: 고난이도 데이터와 인스트럭션 스타일 데이터로 추가 튜닝
- 각 단계는 점차적으로 시퀀스 길이, 데이터 난이도, 배치 크기, 학습률 등을 조정해 모델의 일반화 및 특화 능력 확보
데이터 평가
- Pangu 자체 시리즈 모델을 이용한 모델 기반 다중 도메인 평가 시스템을 운영, 데이터마다 청결도/유창성/교육적 가치/풍부성 등 주요 점수를 할당하여, 데이터 샘플링 및 선정 전략에 반영
- 전체 188개 카테고리의 정교한 라벨링을 시행하여 데이터 분포와 특성을 관리
사전학습 환경과 최적화
- Pangu Pro MoE는 Huawei Ascend 800T A2에서 학습 및 평가, 이 칩은 FP16 256TFlops, INT8 512TOPS 효율, 310W 초저전력으로 높은 AI 성능 및 비용효율을 달성
- 단일 에폭 학습, AdamW 옵티마이저, 3 단계 코사인 러닝레이트 스케줄, 대형 배치 구성 등으로 튼튼한 일반화와 목표 태스크별 특화 가능
포스트 트레이닝(후속 미세조정 및 강화학습)
Supervised Fine-tuning(SFT)
- SFT 데이터는 '추론'과 '비추론' 두 세트로 구분, 추론 비중을 3:1로 높여 수학/코드/논리 추론 등 복잡 작업에 집중
- 2단계 점진적 최적화 전략(다양한 범위에서 간단 지시→복잡 추론으로 점차 진화)을 통해, 모델의 단계적 추론력 및 일반 언어 처리력 균형 있게 성장
- SFT 과정 중 체크포인트 병합 전략을 더해, 다양한 단계 중간 지점의 모델을 효과적으로 통합해 견고성과 일반화 강화
강화학습(RL)
- 보상 기반의 RL 단계는 Group Relative Policy Optimization(GRPO) 알고리듬과, 보상 신호가 없는 샘플을 무시하는 Zero-Advantage-Mask 기법을 함께 적용해 정책 탐색과 효과적 학습을 지원
- 정확성, 선호, 보조 보상 등 다층 보상 시스템을 도입, 수학 및 코딩 작업은 자동화된 평가 체계, 오픈도메인 과제는 별도의 LLM 기반 판정자(Preference Model)로 평가
- 커리큘럼 데이터 믹싱으로 데이터 복잡도 분포를 동적으로 조정, 모델 성장에 연속적 자극 제공
시스템 및 인프라 최적화
Ascend NPU 학습 시스템
- 계층적·복합 병렬화(Hierarchical & Hybrid Parallelism) 전략과, EP All-to-All 통신, Adaptive Pipeline Overlap, 오퍼레이터 퓨전 등 첨단 기술을 적극 적용
- 모델 연산 효율(MFU) 35% 향상 및 파이프라인·가상 파이프라인 병렬로 단계별 연산, 통신 부하를 완벽히 분산해 확장성과 처리량 모두 강화
- 커스텀 커널, HBM 대역폭 활용 극대화, 불필요한 통신 및 메모리 오버헤드 삭제 등으로 모델 훈련·추론 모든 단계에서 성능을 최대치로 이끌어냄
- Inference 시스템 역시 Attention, Expert 등 모듈별 유연한 병렬 구성(H2P 전략)과 맞춤형 연산자 최적화로 각 하드웨어 구조에 맞는 최고의 Throughput과 Latency 결과를 보임
성능 및 벤치마크
- Pangu Pro MoE는 Ascend 환경에서 1148~1528 token/s(카드당)* 추론 성능, 동급 파라미터(Open dense 32B, 72B) 대비 압도적 결과 입증
- Cost-to-Performance 면에서도 Ascend 300I Duo 기반에서 탁월한 효율 달성
- 다양한 외부 벤치마크(의사결정, 논리, 코딩, 문서 이해 등)에서 GLM-Z1-32B, Qwen3-32B, Gemma3-27B 등 대형 공개모델을 초과 성능
- 서브 100B 파라미터급에서 최고 수준 LLM임을 실험적으로 보여줌
결론 및 시사점
- Pangu Pro MoE는 대규모 모델 분산 학습/추론에서 전문가 그룹 균형화 설계를 통해 부하 불균형 문제를 근본적으로 해결함
- Ascend 전용 플랫폼 최적화와, 데이터 품질 극대화 등 전방위적 노력으로 비용·속도·일반화 성능의 고차원적 균형을 달성한 차세대 대형 언어 모델임
- 해당 구조와 방법론은 추후 대규모 분산 LLM 생태계 및 다양한 산업 적용에서 중요한 참고/기준이 될 것으로 기대됨
Hacker News 의견
-
이번 아키텍처 발표가 정말 기대되는 이유, 저렴한 GPU만으로도 소규모 개발자들이 대형 업체들과 경쟁할 수 있게 될 가능성 때문임. 결국 크라우드소싱 방식의 오픈 AI 개발이 기술적으로 실현 가능하다는 점을 시사함. 실제 중국이 이 부분을 연구 중이고, 모놀리식 모델들과 경쟁할만한 수준을 목표로 하고 있음. 미국의 제재가 처음에는 회의적이었지만, 만약 이게 논리적으로 완전히 실현된다면 정말 대단한 성과로 볼 수 있음
- 제재가 (비꼬는 의미 없이) 실제로 여러 면에서 전 세계를 더 나은 방향으로 이끌 수 있다고 생각함. 컴퓨팅 다각화, 제조 분산화 등 다양한 개선 효과 촉진
- Deepseek-R1은 이미 GPT 4.1과 비슷한 수준임. 오픈웨이트, 오픈소스 형태로 제공되고, 추론 코드까지도 오픈소스로 공개됨
- SETI@Home처럼 피어투피어 오픈 GPU 트레이닝 네트워크에 나 또한 관심 있음
- 크라우드소싱 오픈 AI가 기술적으로 가능하냐는 질문에 이미 가능하다는 사례로 PrimeIntellect.ai의 Intellect-2 링크 공유
- 흥미로운 발전이라는 생각을 함. 하지만 AI 기술이 인간 생존에 실존적 위협을 줄지에 따라 이게 좋은 일인지 결정된다고 봄. 지나치게 과장된 것처럼 들릴 수 있지만 실제로 이에 대해 매우 심각하게 고민하는 사람들이 많음
-
라이선스가 EU 내 사용·설치를 금지하고 있는데, "이 제한은 보호 차원일 뿐 실제로 집행하지 않을 것"이라는 식의 조항을 둔 라이선스 작성이 가능한지 궁금함. 이런 표현을 ‘분리 조항(isolating clause)’이라고 부를 수 있을 것 같은데, 판사가 이를 법적 우회로 받아들일 수 있을지 확실치 않음. 메타가 llama 웨이트 공개할 때와 비슷한 맥락인 듯함. 유럽 AI 법안의 본질은 AI의 구체적 사용을 통제하는 것이라고 생각하고, 단순히 웨이트와 아키텍처를 배포하는 건 포함되지 않을 것 같음. 배포 금지가 실질적으로 유럽인에게 더 많은 선택지와 경쟁을 제공할 텐데, 정말로 법적으로 금지되는 것인지 궁금함. 한편, 오픈 웨이트를 설치한다면 백도어(특정 프롬프트를 통해 시스템을 조작할 수 있는 취약성)가 생길 수 있다는 점에서 보안상 주의도 필요하다고 생각함. 관련 논문에서 '0?,#2!' 같은 심볼 조합이 LLM의 숨겨진 정보를 누군가 읽을 수 있는 상태(프롬프트 인젝션)로 만들 수 있다는 사례를 본 기억이 있음. 이런 공격을 파인튜닝이나 Lora로 막을 수 있거나 약화시킬 수 있는지, 혹은 방어에 유용한 파이썬 라이브러리가 있는지도 궁금함. 다운받고, 설치하고, 파인튜닝이나 로라로 수정하면 보호를 받을 수 있을지 질문함
- Huawei가 EU 시민의 행동을 통제할 권리는 없고, 사실 이런 제한을 굳이 넣을 필요가 없었다고 봄. EU 시민으로서 직접 법을 숙지하고, 위험한 모델은 피하는 것이 스스로를 보호하는 길이라는 생각
- 보안 측면에서 LLM이 만드는 모든 코드는 신뢰하지 말고 반드시 검토가 필요함
- ‘분리 조항’과 유사한 조건으로 Alliance for Open Media의 코덱 라이선스를 예로 들어 설명. 해당 코덱은 로열티 프리지만, 라이선스 조건상 포맷 사용 관련 법적 소송 제기 시 사용 권리가 철회됨
-
웨이트는 gitcode에서 받을 수 있음
- 단, 라이선스에 따르면 EU 내 접근, 다운로드, 설치, 실행, 배포, 통합, 수정, 그 외 사용이 모두 명시적으로 차단됨. 관련 라이선스 링크는 여기
- ‘오픈소스’라는 용어 대신 ‘오픈웨이트’라는 정교한 표현이 적용된 점은 좋음. 그런데 오픈웨이트가 정말 흥미로운 것인지 궁금함. 이는 해당 모델의 편향(혹은 편향 없음)을 알 수 있는지? 경쟁 모델 학습에 활용이 가능한지? 오픈소스와 오픈웨이트의 차이나 장단점이 궁금하고, LLM 시대에 ‘웨이트가 곧 소스’라는 말이 타당한지도 배우고 싶은 상황
-
현재 LLM이 확장성의 한계(scaling wall)에 부딪히고 앞으로는 효율성이 승부처가 된다면, 특정 사용 사례에 초점을 맞춘 소형 모델 시장이 생길지 궁금함. 실제로 Gemini로 이미지에서 구조화 데이터를 추출하는데 flash 모델이 아주 효과적임. NUC와 AMD APU 같은 소형 장치에서 특정 용도만 충족하는 경량 모델을 만드는 데 얼마나 노력이 들지 궁금함. 또는 특정 사용 사례용 미니 외장 GPU 스틱 같은 기기가 나타날 가능성도 흥미로움. 상업적으로는 큰 시장이 아닐 수 있지만 꽤 멋질 것 같음
- '특정 사용 사례에 초점을 맞춘 소형 모델' 주제는 이미 HN에서 중요한 논의임: "Small language models are the future of agentic AI"
- 명명된 엔터티 추출용 모델 찾다가 dslim/bert-base-NER 모델을 알게 됨. 파라미터는 1억 800만개임
- 이런 방향은 이미 ‘모델 디스틸레이션’(대형 LLM이 만든 레이블, 전용 작은 모델이 1000배 저렴하게 추론)이라는 이름으로 있음
- 예전 USB 포트에 ASIC 꽂고 비트코인 채굴하던 시기 생각나는 상황
-
제재는 임시방편에 불과하다고 생각함. 이상적으로는 국내 역량 강화를 위한 시간 벌기 용도지만, 오히려 미국 내 연구비 삭감과 외국인 유학생·연구자 유입 억제로 인해 미국 역량이 고갈되는 반면, 중국이 성장 궤도에 오르게 될 것
-
이 뉴스 며칠 지난 소식임. 텐센트의 하이브리드 AI 모델 오픈소스 소식은 TechInAsia 참고, GitHub 링크도 공유
-
Sic transit gloria nvidii(엔비디아의 영광도 이렇게 스쳐 지나감)
- 언어학 배경지식: 'invidia'는 라틴어로 ‘질투’ 의미
- 5년 간의 라틴어 공부가 빛을 발하는 순간임
- 작은 지적질이지만, 단수 생격은 nvidiae가 맞음. i는 o 변화형 어미임
- Sic transit gloria nvidiae가 맞는 형태임
- 오늘 읽은 글 중 최고, 브라보라는 감상
-
중국인 친구가 있음. 6년 전 중국 HW 스타트업 창업 엔지니어로 합류함. 그 후 제재가 찾아옴. 최근 만남에서 친구가 제재가 인생 최고의 사건이었다는 말을 함. 중국 현지업체들이 서방국 원산 제품을 아예 안 사게 되어 자사 회사가 크게 성장함. 이제 제재는 모두가 ‘당연한 것’으로 받아들이기 때문에, 그 결과는 오로지 자력갱생과 성장 집중임
- 산업별 영향 차이가 존재함. 제재 전에는 Synopsys 같은 대형 EDA 기업에 비해 엄청난 기술 격차로 간신히 버티던 소형 EDA 소프트웨어 업체들이, 이제는 위험 회피 수요로 새로운 고객을 대거 확보하고 있음. 이를 ‘호르메시스(hormesis)’라고 부름
-
제재 이후 어떤 의미가 있는 건지 궁금함. 제재로 큰 타격을 입은 Huawei 스마트폰이 이제 자체 GPU로 반격의 기회를 얻는 것인지? 이런 GPU의 성능이 서방 최신 GPU와 비교하면 어떤지? 이제 Huawei가 이 GPU를 상용화할 역량이 있다는 의미인지 궁금함
- Huawei는 생각보다 엄청난 기업임. 5G 기지국뿐 아니라 핸드폰, 전기차까지 다양한 분야에서 거대함
- “반격의 기회”라는 표현에 대해, Huawei의 스마트폰 판매는 이미 중국 내에서 애플을 앞질렀음. 상세 시장 점유율 데이터 링크
- 하드웨어적으로는 Huawei가 충분히 경쟁력 있는 폰을 만들 수 있음. 다만 구글 앱스토어가 없는 상황에서 구매의 타당성 설명이 어려움
- Huawei의 전반적 상황을 설명하는 유튜브 영상 링크 참고 추천
-
TSMC와 Nvidia에 견줄 수 있도록, Node Size 측면에서 Huawei와 중국의 경쟁 구도가 형성되는 것이 전 세계적으로 필요함
- 지정학적 이슈를 고려하지 않으면 아주 좋은 시나리오임. 하지만 AI 기술은 양날의 검이고, 소비자 영역의 경쟁은 곧 군비 경쟁으로 이어질 가능성이 높음. 중국의 제조력, 인건비 등을 감안하면 결국 중국이 승리할 가능성이 높음. 다만, 이를 실현하려면 우선 ASML 중복 생산이 필요한데 이는 가까운 미래엔 현실적이지 않을 것
- 만약 미국이 칩 수출 규제를 푼다면, 중국 정부가 오히려 수입 규제를 걸 가능성이 높다는 인상임. Nvidia/TSMC/Apple/Google에 맞설 진짜 경쟁자를 키움으로써 얻는 이익이 월등히 큼