텐센트 Hunyuan-T1 - 최초의 Mamba 아키텍처 기반 초대형 모델

(llm.hunyuan.tencent.com)

Hunyuan-T1은 TurboS 기반의 초대형 Hybrid-Transformer-Mamba MoE 모델
대규모 후처리 학습을 통해 인간의 선호도에 맞춰 추론 능력을 확장하고 성능을 향상
TurboS의 장문 텍스트 처리 능력 으로 문맥 손실 및 장거리 정보 의존 문제 해결
Mamba 아키텍처 는 장문 시퀀스 처리를 최적화하여 효율적인 계산 방식으로 긴 텍스트 정보 캡처 가능
- 동일한 배포 조건에서 디코딩 속도 2배 향상
모델의 사후 훈련 단계에서 전체 컴퓨팅 파워의 96.7% 를 강화 학습에 투자
- 수학, 논리 추론, 과학, 코드 등 다양한 문제를 포함한 데이터 세트를 수집하여 모델의 추론 능력을 강화
- 정답 피드백 및 실시간 사용자 피드백을 통해 모델 성능 강화
- 커리큘럼 학습 방식 적용
  - 데이터 난이도를 점진적으로 증가시키며 모델의 문맥 길이 확장
  - 토큰 효율적 사용 능력 강화
강화 학습 전략 : 데이터 재학습 및 정책 재설정 전략 적용 → 훈련 안정성 50% 이상 개선
보상 시스템
- 자가 보상 방식 채택 → 모델 출력을 자체 평가 및 점수화
- 포괄적인 보상 체계 적용 → 모델의 정보 효율성 및 콘텐츠 세부 사항 강화

벤치마크 성능 평가

MMLU-pro, CEval, AIME, Zebra Logic 등 중국 및 영어 추론 지표에서 우수한 성능
DeepSeek R1과 동급 성능 또는 약간 더 나은 결과
- 문화적 창의성, 텍스트 요약, 에이전트 능력에서 우위 확보
MMLU-PRO 평가에서 87.2점 획득 → 인문학, 사회과학, 과학기술 등 14개 분야에서 우수한 메모리 및 이해력 입증
GPQA-diamond 평가에서 69.3점 기록 → 박사 수준의 물리학, 화학, 생물학 문제 해결 능력 확인
코드, 수학, 논리 추론 등 강력한 성능 입증
- LiveCodeBench에서 64.9점 획득 → 코드 작성 및 이해 능력 확인
- MATH-500에서 96.2점 → DeepSeek R1에 근접한 수학 문제 해결 능력 입증
ArenaHard에서 91.9점 획득 → 다양한 정렬 작업, 지시 따르기 작업, 도구 활용 작업에서 강력한 적응력을 보여줌

모델의 뛰어난 성능은 강화 학습이 최적화 과정에서 중요한 역할을 한다는 것을 완전히 증명함
- 만약 이 강화 학습이 다른 곳에서 더 나은 답을 제공하지 않고 벤치마크만 조작하는 것이라면, 우리는 그것을 어떻게 알아차릴 수 있을까 하는 의문이 제기됨
이 모델을 조금 사용해본 결과, 영어 질문에 중국어로 답변하는 경향이 있는 것 같음
그들의 대형 모델은 389b 파라미터였는데, 초대형 모델은 얼마나 큰지 궁금함
요즘 너무 많은 모델들이 나오고 AI 분야에서 많은 발전이 이루어지고 있어 따라가기가 어려움
- 실제로 획기적이거나 중요한 것이 무엇인지 확신할 수 없음
Mamba 기반 모델이 잘 작동하는 것을 보는 것이 흥미로움
이러한 이름의 로마자 표기가 항상 혼란스러움
- 문자와 음조가 제거되면 그냥 의미 없는 글자가 됨
- "Hunyuan" 또는 중국어로 混元은 "원시 혼돈" 또는 "원초적 통일"을 의미함
- 이는 더 많은 중국 제품과 서비스가 시장에 출시되면서 기억하기 쉽게 도와줌
- 서양 제품에서 그리스 신화의 인기가 있는 것과 유사함 (예: "Apollo"라는 이름의 모든 제품)
Huggingface 데모에 연결하고 있다는 사실이 가중치를 공개할 것임을 암시하는지 궁금함
Kobe?