12P by xguru 6달전 | favorite | 댓글과 토론
  • 100M(1억개) 파라미터만 가능한 Andrei Karpathy의 nanoGPT 를 개선하여 100B(100억개) 까지 훈련 가능
  • 다른 코드 및 타사 프레임워크 의존성은 없고, "Cerebras 하드웨어"의 대용량 메모리와 연산 능력을 활용하여 바닐라 torch.nn 코드에 대한 대규모 학습을 가능하게 함
  • 별도 수정없이도 긴 컨텍스트 길이를 지원하며, 다양한 최적화 도구와 함께 작동함
  • Cerebras 는 칩셋 제조사로, 매트릭스 곱셈 속도는 GPU와 비슷하지만 훨씬 더 크게 만들어서 한개의 칩에 더 많은 트랜지스터와 메모리를 넣는 회사
    • 이 크기 덕분에 여러 디바이스에 걸쳐서 샤딩 후 통합 하는 등의 작업이 필요가 없어서 LOC를 적게 만들수 있음