4P by xguru 2023-01-03 | favorite | 댓글 3개
  • BLOOM-176B 같은 초거대 언어모델을 "공동으로" 실행
    • 자신의 GPU를 Petals에 연결
    • 각자가 모델의 일부를 로딩하고, 다른 사람들과 함께 추론 및 미세조정을 실행
  • 추론은 스텝(토큰)당 1초 정도로 오프로딩 보다 10배 빨라서 챗봇 및 기타 대화형 앱에 충분
    • 병렬 추론은 초당 수백개의 토큰 가능
  • GPU시간을 제공하는 사람에게 명시적 인센티브(블룸포인트)를 도입하는 작업중

엥 이 글이 아닌데...

훨씬 작은 BLOOM-7B 버전도 로컬에서 직접 돌리면 Ryzen(16코어) + 32램에서 90초 정도 걸린다고 하네요.
주장한대로 잘 실행되면 꽤 좋긴 하겠는데.. 뭔가 그 블록체인 느낌이..
(개발자 얘기로는 블록체인은 쓰지 않는다고는 하네요)