지금 제일 걱정해야 할 것은 중국의 무단증류나 검열이 아니라
DeepSeek 미친 효율성의 배경인 MLA, MTP, mixed precision framework, GRPO을 순수 100% 중국 대학 출신만으로 만들었다는게 충격입니다.
미국에서는 제 2의 스푸트니크 쇼크라는 말 까지 나오는 중...
지금 제일 걱정해야 할 것은 중국의 무단증류나 검열이 아니라
DeepSeek 미친 효율성의 배경인 MLA, MTP, mixed precision framework, GRPO을 순수 100% 중국 대학 출신만으로 만들었다는게 충격입니다.
미국에서는 제 2의 스푸트니크 쇼크라는 말 까지 나오는 중...
distealing이라 이제와서 나무라기에는 태동기 LLaMA 1 시절부터 GPT에서 증류한 Alpaca, Vicuna 모델이 있었고, 지금 프론티어 랩에서도 서로 모델 출력으로 학습 안하는 곳이 없습니다.
사실상 지금 프론티어 모델들은 GPT에서 증류한 근친교배 유전자에 연구실 입맛에 따라 RLHF한게 대부분