Petals - 비트토렌트 스타일로 집에서 LLMs 실행

(petals.dev)

2P by GN⁺ 2023-09-18 | ★ favorite | 댓글 1개

기사는 BitTorrent와 유사하게 사용자가 집에서 대형 언어 모델(LLMs)을 실행할 수 있게 해주는 새로운 기술인 Petals를 소개합니다.
Petals는 Llama 2 (70B), Falcon (180B), BLOOM (176B) 등 여러 LLMs와 그 파생 제품을 지원합니다.
이 기술은 사용자의 장치에 모델의 일부를 로드한 후, 나머지 부분을 제공하는 다른 사용자들의 네트워크에 연결하는 방식으로 작동합니다.
Llama 2에 대해 6 토큰/초, Falcon에 대해 4 토큰/초의 단일 배치 추론 속도를 제공합니다. 이 속도는 챗봇과 대화형 앱에 충분합니다.
Petals는 사용자가 어떤 미세 조정 및 샘플링 방법을 사용하거나, 모델을 통해 사용자 정의 경로를 실행하거나, 숨겨진 상태를 볼 수 있도록 하여 클래식 LLM API를 넘어섭니다.
Petals는 PyTorch와 🤗 Transformers의 유연성과 API의 편리성을 결합합니다.
사용자는 Google Colab에서 Petals를 시험해 볼 수 있으며, GitHub에서 문서를 확인할 수 있습니다.
기사는 프로젝트에 대한 주요 기여자들을 나열하고 GPU를 기여할 수 있는 링크를 제공합니다.
사용자는 Discord 또는 이메일 구독을 통해 Petals의 개발을 따라갈 수 있습니다.
이 프로젝트는 BigScience 연구 워크숍의 일부입니다.

▲

GN⁺ 2023-09-18 [-]

Hacker News 의견

BitTorrent과 유사한 방식으로 대형 언어 모델(LLMs)을 가정에서 실행하는 새로운 방법에 대한 기사
모델 가중치가 여러 기계에 걸쳐 계층으로 나누어져 협력하여 추론 또는 미세 조정을 수행
Ollama라는 프로젝트가 개발 중으로, Docker 레지스트리에 모델 가중치를 호스팅하여 매번 올바른 가중치가 다운로드되도록 보장
양자화/QLORA의 사용으로 대형 모델을 소비자 하드웨어에서 허용 가능한 속도로 실행, 다른 서버 간 병렬성으로 인한 지연 시간 피함
70B와 같은 대형 모델의 미세 조정은 도전적이며 비싼 자원이 필요, "llama training horde"의 집단 기여 제안
시스템의 취약성에 대한 우려, 악의적인 참가자들이 출력을 변경하거나 쓰레기 결과를 반환하여 시스템을 방해할 수 있음
프로젝트의 일부인 Petals는 사용자가 GPU를 공유하고 코드를 기여할 수 있게 하여 일반적인 코딩 경험 제공
시스템은 분배된 토큰의 일정 수를 제공할 수 있으므로 저사양 장치 사용자에게 이점을 줄 수 있음
프로젝트는 잠재적인 게임 체인저로 보여지며, 이 분야의 더 많은 개발자에게 접근성을 제공
Petals는 AI Horde kudos와 유사한 중앙 집중식 인센티브 시스템을 운영, 다른 측면에서는 분산 시스템임. 인센티브는 돈으로 교환할 수 없으며 시스템 내에서 사용하도록 의도됨
일부 사용자들은 GPU를 공유하려고 할 때 종속성 버전 문제를 겪음
GPU 사이클을 위해 "토큰"을 사용하는 것에 대한 제안, 태양광 PV 에너지의 사용을 극대화하기 위해 해를 따라가는 아이디어 제시

답변달기