이념이랑 검열 얘기는 일단 빼고 보면, 이번 DeepSeek 모델들 엔지니어링 수준은 진짜 감탄이 나올 정도네요.

V2.5 구조에서 사용했던 MLA도 천재적인 발상이라 생각했는데 이번에는 MTP 가능성까지 입증하고, R1으로 O1 모델 복제를 완벽히 성공한 데다, 수출 규제로 하드웨어가 제한된 상황에서도 훈련 기술을 뽑아낸거 보면 정말 대단합니다.

ML에 관심 있으신 분들은 DeepSeek Technical Report V2.5, V3, R1 꼭 읽어보세요. 감탄밖에 안 나옵니다. 이걸 다 MIT 라이센스로 공개했다는 게 아직도 이해가 안 가네요

LLaMA 같은 경우는 LLaMA 2 -> 3 에서 아키텍처 혁신이 거의 없고 훈련 스케일링만 늘렸다는 느낌이 강했는데 이게 전조였다고 봅니다.