Hacker News 의견
  • 극한의 성능을 위해 문서에 없는 PTX 명령어를 발견하고 사용함. 이 명령어는 비일관적인 읽기 전용 PTX 수정자를 사용하여 휘발성 GPU 메모리에 접근하는 것으로 정의되지 않은 동작을 초래할 수 있음. 그러나 Hopper 아키텍처에서 .L1::no_allocate로 테스트된 정확성이 보장되며 성능이 훨씬 나아질 것임
  • Zuckerberg는 Meta가 AI를 오픈 소싱한다고 주장하는 것을 멈춰야 함. 그들은 코드가 아닌 가중치만 공개하고 있음. 진정한 오픈 소스 AI는 DeepSeek뿐임
  • 마치 사탕 가게에 있는 아이처럼 느껴짐. 이러한 트릭 중 일부는 논문을 기반으로 올바르게 역공학하는 데 너무 오래 걸릴 것임. 이번 주의 발표가 MoE를 기본 학술 모델로 사용하는 르네상스를 시작하길 바람
  • 이 사람들을 사랑하지 않을 수 없음. 그들은 우리 모두를 위해 오픈 소스의 경계를 정말로 밀어붙이고 있음. 공유해줘서 고마움
    • 효율적이고 최적화된 all-to-all 통신
    • NVLink와 RDMA를 통한 노드 내 및 노드 간 지원
    • 훈련 및 추론 사전 채우기를 위한 고처리량 커널
    • 추론 디코딩을 위한 저지연 커널
    • 네이티브 FP8 디스패치 지원
    • 계산-통신 중첩을 위한 유연한 GPU 자원 제어
  • DeepSeek의 작업 뒤에 있는 동기는 잘못된 것일 수 있음 (예: AI에서 미국의 선도적 이점을 없애려는 국가 후원 시도). 그러나 전 세계적으로 그 결과는 단순히 환상적임
    • 최악의 경우 (잘못된 이유로 이 작업을 수행하는 경우)에도 DeepSeek에게 감사함. 그들은 OpenAI가 수년간 전 세계에 거짓말한 것을 실제로 하고 있음
    • 정말 대단함
  • 모두가 기대했던 PTX가 이번에 포함되었는지 궁금함
  • 기술 보고서에서 언급한 PTX 명령어가 여기 코드로 연결되어야 함
  • 미국이 싱가포르에서 GPU 영수증을 추적하는 동안 DeepSeek이 H800만 사용했는지 확인하기 위해, 나머지 세계는 전체 H100에서 이러한 최적화를 실행할 수 있음
    • 미국의 제재와 그들의 명령이 전 세계를 덮고 있다고 믿는 오만함 때문에 H100을 얻거나 접근하기 어려웠다고 가장하는 것인지 궁금함
  • 실제 "Open AI™" 회사의 두 번째 오픈 소스 릴리스이며 MIT 라이선스 하에 있음
    • DeepSeek은 $157B+를 주장하는 회사보다 더 개방적임
    • 거의 아무도 Meta의 Llama에 대해 이야기하지 않으며 모두가 Llama 4를 이유와 함께 출시할 것으로 예상해야 함
    • 목표는 제로로의 경주에서 중간에 끼이지 않는 것임