GN⁺: Petals - 비트토렌트 스타일로 집에서 LLMs 실행
(petals.dev)- 기사는 BitTorrent와 유사하게 사용자가 집에서 대형 언어 모델(LLMs)을 실행할 수 있게 해주는 새로운 기술인 Petals를 소개합니다.
- Petals는 Llama 2 (70B), Falcon (180B), BLOOM (176B) 등 여러 LLMs와 그 파생 제품을 지원합니다.
- 이 기술은 사용자의 장치에 모델의 일부를 로드한 후, 나머지 부분을 제공하는 다른 사용자들의 네트워크에 연결하는 방식으로 작동합니다.
- Llama 2에 대해 6 토큰/초, Falcon에 대해 4 토큰/초의 단일 배치 추론 속도를 제공합니다. 이 속도는 챗봇과 대화형 앱에 충분합니다.
- Petals는 사용자가 어떤 미세 조정 및 샘플링 방법을 사용하거나, 모델을 통해 사용자 정의 경로를 실행하거나, 숨겨진 상태를 볼 수 있도록 하여 클래식 LLM API를 넘어섭니다.
- Petals는 PyTorch와 🤗 Transformers의 유연성과 API의 편리성을 결합합니다.
- 사용자는 Google Colab에서 Petals를 시험해 볼 수 있으며, GitHub에서 문서를 확인할 수 있습니다.
- 기사는 프로젝트에 대한 주요 기여자들을 나열하고 GPU를 기여할 수 있는 링크를 제공합니다.
- 사용자는 Discord 또는 이메일 구독을 통해 Petals의 개발을 따라갈 수 있습니다.
- 이 프로젝트는 BigScience 연구 워크숍의 일부입니다.
Hacker News 의견
- BitTorrent과 유사한 방식으로 대형 언어 모델(LLMs)을 가정에서 실행하는 새로운 방법에 대한 기사
- 모델 가중치가 여러 기계에 걸쳐 계층으로 나누어져 협력하여 추론 또는 미세 조정을 수행
- Ollama라는 프로젝트가 개발 중으로, Docker 레지스트리에 모델 가중치를 호스팅하여 매번 올바른 가중치가 다운로드되도록 보장
- 양자화/QLORA의 사용으로 대형 모델을 소비자 하드웨어에서 허용 가능한 속도로 실행, 다른 서버 간 병렬성으로 인한 지연 시간 피함
- 70B와 같은 대형 모델의 미세 조정은 도전적이며 비싼 자원이 필요, "llama training horde"의 집단 기여 제안
- 시스템의 취약성에 대한 우려, 악의적인 참가자들이 출력을 변경하거나 쓰레기 결과를 반환하여 시스템을 방해할 수 있음
- 프로젝트의 일부인 Petals는 사용자가 GPU를 공유하고 코드를 기여할 수 있게 하여 일반적인 코딩 경험 제공
- 시스템은 분배된 토큰의 일정 수를 제공할 수 있으므로 저사양 장치 사용자에게 이점을 줄 수 있음
- 프로젝트는 잠재적인 게임 체인저로 보여지며, 이 분야의 더 많은 개발자에게 접근성을 제공
- Petals는 AI Horde kudos와 유사한 중앙 집중식 인센티브 시스템을 운영, 다른 측면에서는 분산 시스템임. 인센티브는 돈으로 교환할 수 없으며 시스템 내에서 사용하도록 의도됨
- 일부 사용자들은 GPU를 공유하려고 할 때 종속성 버전 문제를 겪음
- GPU 사이클을 위해 "토큰"을 사용하는 것에 대한 제안, 태양광 PV 에너지의 사용을 극대화하기 위해 해를 따라가는 아이디어 제시