Petals - 100B+ 언어모델을 집에서 빗토렌트 스타일로 운영하기
(github.com/bigscience-workshop)- BLOOM-176B 같은 초거대 언어모델을 "공동으로" 실행
- 자신의 GPU를 Petals에 연결
- 각자가 모델의 일부를 로딩하고, 다른 사람들과 함께 추론 및 미세조정을 실행
- 추론은 스텝(토큰)당 1초 정도로 오프로딩 보다 10배 빨라서 챗봇 및 기타 대화형 앱에 충분
- 병렬 추론은 초당 수백개의 토큰 가능
- GPU시간을 제공하는 사람에게 명시적 인센티브(블룸포인트)를 도입하는 작업중
훨씬 작은 BLOOM-7B 버전도 로컬에서 직접 돌리면 Ryzen(16코어) + 32램에서 90초 정도 걸린다고 하네요.
주장한대로 잘 실행되면 꽤 좋긴 하겠는데.. 뭔가 그 블록체인 느낌이..
(개발자 얘기로는 블록체인은 쓰지 않는다고는 하네요)