극한의 성능을 위해 문서에 없는 PTX 명령어를 발견하고 사용함. 이 명령어는 비일관적인 읽기 전용 PTX 수정자를 사용하여 휘발성 GPU 메모리에 접근하는 것으로 정의되지 않은 동작을 초래할 수 있음. 그러나 Hopper 아키텍처에서 .L1::no_allocate로 테스트된 정확성이 보장되며 성능이 훨씬 나아질 것임
Zuckerberg는 Meta가 AI를 오픈 소싱한다고 주장하는 것을 멈춰야 함. 그들은 코드가 아닌 가중치만 공개하고 있음. 진정한 오픈 소스 AI는 DeepSeek뿐임
마치 사탕 가게에 있는 아이처럼 느껴짐. 이러한 트릭 중 일부는 논문을 기반으로 올바르게 역공학하는 데 너무 오래 걸릴 것임. 이번 주의 발표가 MoE를 기본 학술 모델로 사용하는 르네상스를 시작하길 바람
이 사람들을 사랑하지 않을 수 없음. 그들은 우리 모두를 위해 오픈 소스의 경계를 정말로 밀어붙이고 있음. 공유해줘서 고마움
효율적이고 최적화된 all-to-all 통신
NVLink와 RDMA를 통한 노드 내 및 노드 간 지원
훈련 및 추론 사전 채우기를 위한 고처리량 커널
추론 디코딩을 위한 저지연 커널
네이티브 FP8 디스패치 지원
계산-통신 중첩을 위한 유연한 GPU 자원 제어
DeepSeek의 작업 뒤에 있는 동기는 잘못된 것일 수 있음 (예: AI에서 미국의 선도적 이점을 없애려는 국가 후원 시도). 그러나 전 세계적으로 그 결과는 단순히 환상적임
최악의 경우 (잘못된 이유로 이 작업을 수행하는 경우)에도 DeepSeek에게 감사함. 그들은 OpenAI가 수년간 전 세계에 거짓말한 것을 실제로 하고 있음
정말 대단함
모두가 기대했던 PTX가 이번에 포함되었는지 궁금함
기술 보고서에서 언급한 PTX 명령어가 여기 코드로 연결되어야 함
미국이 싱가포르에서 GPU 영수증을 추적하는 동안 DeepSeek이 H800만 사용했는지 확인하기 위해, 나머지 세계는 전체 H100에서 이러한 최적화를 실행할 수 있음
미국의 제재와 그들의 명령이 전 세계를 덮고 있다고 믿는 오만함 때문에 H100을 얻거나 접근하기 어려웠다고 가장하는 것인지 궁금함
실제 "Open AI™" 회사의 두 번째 오픈 소스 릴리스이며 MIT 라이선스 하에 있음
DeepSeek은 $157B+를 주장하는 회사보다 더 개방적임
거의 아무도 Meta의 Llama에 대해 이야기하지 않으며 모두가 Llama 4를 이유와 함께 출시할 것으로 예상해야 함
Hacker News 의견