Groq, Mixtral 8x7B-32k를 500 T/s로 구동

(groq.com)

1P by GN⁺ 2024-02-21 | ★ favorite | 댓글 1개

▲

GN⁺ 2024-02-21 [-]

Hacker News 의견

첫 번째 댓글 요약:
- - 이 기술 데모는 매우 인상적이며, 계정 등록 없이 누구나 시도할 수 있는 진정한 오픈 데모라는 점이 좋음.
- - 기존에 보던 것보다 훨씬 빠른 속도로 토큰을 생성하는 것을 보는 것은 초현실적임.
- - 마이크로소프트, 애플, 구글 같은 대기업에 의해 인수되지 않은 것이 놀랍다고 언급함.
두 번째 댓글 요약:
- - Groq LPUs의 주요 문제는 HBM이 전혀 없고, 극히 적은 양(230 MiB)의 초고속 SRAM만 탑재되어 있음.
- - 단일 모델을 서비스하기 위해 256개의 LPU(서버 랙 4개 분량)가 필요함.
- - 단일 모델에 대한 많은 고객이 있는 경우에는 유용하지만, 여러 모델과 미세 조정이 필요한 경우에는 사용하기 어려움.
세 번째 댓글 요약:
- - 데모가 인상적이지만, 벤치마크 없이는 회의적일 필요가 있음.
- - 모델 품질을 희생하면서 모델을 빠르게 하는 방법, 예를 들어 모델 양자화가 있음.
- - LLM 토큰/초의 진보가 CPU 명령어/초가 수십 년 전에 한 것처럼 발전하기를 바람.
네 번째 댓글 요약:
- - Groq에서 일하는 사람으로, 질문이 있으면 언제든지 물어보라고 함.
- - Groq의 컴파일 파이프라인 일부가 Haskell로 작성되었다고 언급함.
다섯 번째 댓글 요약:
- - 데모는 인상적이지만, 하드웨어 요구 사항과 비용 때문에 대기업만 접근할 수 있음.
- - 취미로 하는 사람들에게도 가격이 저렴해질 시기에 대한 질문이 있음.
- - CNN Vapi 데모도 인상적이었지만, 다른 서비스가 낮은 오디오 지연으로 자연스러운 대화를 가능하게 한다는 점을 언급함.
- - 실시간 상호작용이 가능한 토큰/초의 임계값에 대한 의견과 그 이상의 속도가 AI 간의 커뮤니케이션에 유용할 수 있다는 생각을 공유함.
여섯 번째 댓글 요약:
- - 이 기술이 왜 인상적인지, 더 많은 컴퓨팅 파워를 사용하여 반응 속도를 높일 수 없는지에 대해 질문함.
- - NVIDIA의 차트를 인용하여 H100이 70B 모델을 500 토큰/초 이상으로 실행한다고 언급함.
일곱 번째 댓글 요약:
- - 특정 폰트에 접근할 수 없으면 페이지가 작동하지 않고, 요청을 반복해서 시도함을 지적함.
- - 브라우저가 기본적으로 이러한 추적기를 차단하기 때문에 이 문제를 발견함.
여덟 번째 댓글 요약:
- - 이 기술이 x.ai에서 제공하는 Grok 모델과 관련이 없는지 질문함.
- - 사용해본 결과, 속도에 매우 인상을 받았다고 언급함.
아홉 번째 댓글 요약:
- - Groq와 mixtral 모두에 대해 감탄함.
- - 특정 프롬프트를 사용하여 GitLab CI YAML 파일을 생성하는 데모를 경험함.
열 번째 댓글 요약:
- - Groq의 API 성능도 이 수준에 가까움.
- - 시간에 따른 성능 벤치마크를 통해 400 토큰/초 이상을 지속적으로 달성함을 공유함.

답변달기