▲GN⁺ 2024-03-08 | parent | ★ favorite | on: 70B 언어 모델을 집에서 파인튜닝하기(answer.ai)Hacker News 의견 이 글은 훌륭하지만, 'nibble'이라는 단어를 사용할 기회가 많았는데 모두 놓쳤다는 점이 아쉽다. 글이 흥미롭지만, 'nibble'이라는 단어를 활용하지 않은 점에 대한 아쉬움을 표현함. 4비트 가중치를 사용하는 시스템으로 70b 모델을 미세 조정하는 데 얼마나 걸릴지, 예를 들어 모델 크기, 훈련 크기, 훈련 비용, 이 기술로 예상되는 품질 손실을 나타내는 표가 있으면 소비자로서 관심이 갈 것 같다. 미세 조정 최종 비용에 대한 관심을 나타내며, 모델 크기, 훈련 비용 등을 포함한 상세 정보를 요구함. (-1,0,1) 인코딩을 적용할 수 있는지 궁금하다. 해당 모델이 나오면 answer.ai가 같은 기술을 사용해 두 개의 작은 GPU로 큰 모델을 미세 조정할 수 있는지, 그리고 비용/효익 분석을 요청한다. 새로운 인코딩 기법에 대한 기술 적용 가능성과 비용 대비 효과 분석에 대한 질문을 제기함. 이런 연구는 개인 사용자가 LLM 시장에서 경쟁할 수 있게 해주는 데 매우 유용하다. '제로에서 하나로'라는 책의 내용과 일맥상통하는 훌륭한 작업이다. 연구가 개인 사용자에게 유용하며, 특정 문제를 해결하는 데 기여하는 점을 긍정적으로 평가함. NeurIPS 효율성 챌린지에서 모든 상위 입상작이 QLoRA를 사용했다는 점을 언급하지 않았는데, 이는 QLoRA의 중요성과 유용성을 보여주는 좋은 예시다. QLoRA 기술의 중요성과 유용성을 강조하며, 해당 기술이 대회에서 인정받았음을 언급함. '오픈 소스' LLM에서 본 가장 흥미롭고 건설적인 접근 방식이다. 학계도 이를 표준으로 삼았으면 좋겠다. 오픈 소스 LLM에 대한 접근 방식을 높이 평가하며, 학계에서도 이를 표준으로 채택하기를 바람. Metal에서의 빠른 훈련이 더 일찍 나왔으면 하는 바람이 있다. 현재로서는 Mac Studio가 대규모 모델 추론에 훨씬 저렴하고 충분히 빠르지만, 훈련 솔루션은 거의 존재하지 않는다. Metal 플랫폼에서의 빠른 훈련 기대와 현재 Mac Studio의 효율성에 대한 의견을 제시함. 기술적 글쓰기의 품질과 명확성이 훌륭하다. 기술 문서의 품질과 명확성에 대한 칭찬을 함. LLM(70B) 가중치를 나만의 데이터로 재훈련할 수 있는지 궁금하다. 개인 데이터로 LLM 재훈련 가능성에 대한 질문을 함. 한정된 하드웨어 예산으로 LLM을 미세 조정하는 사람들에게 이는 획기적인 돌파구다. 제한된 하드웨어 예산을 가진 사용자들에게 이 기술이 큰 진전이 될 것이라고 평가함. FSDP 대신 DeepSpeed를 선택한 이유가 궁금하다. FSDP와 DeepSpeed 중 선택한 이유에 대한 궁금증을 표현함. 모델을 미세 조정할 수 있게 되었을 때 성능 튜닝을 위해 사용한 도구가 있는지 궁금하다. 성능 튜닝을 위해 사용된 도구에 대한 질문을 함. 스파스화를 사용해본 적이 있는지, 이를 통해 더 적은 RAM으로 미세 조정이 가능할 것 같다는 생각이 든다. 스파스화 기술 사용과 그로 인한 RAM 절감 가능성에 대한 의견을 제시함.
Hacker News 의견
이 글은 훌륭하지만, 'nibble'이라는 단어를 사용할 기회가 많았는데 모두 놓쳤다는 점이 아쉽다.
4비트 가중치를 사용하는 시스템으로 70b 모델을 미세 조정하는 데 얼마나 걸릴지, 예를 들어 모델 크기, 훈련 크기, 훈련 비용, 이 기술로 예상되는 품질 손실을 나타내는 표가 있으면 소비자로서 관심이 갈 것 같다.
(-1,0,1) 인코딩을 적용할 수 있는지 궁금하다. 해당 모델이 나오면 answer.ai가 같은 기술을 사용해 두 개의 작은 GPU로 큰 모델을 미세 조정할 수 있는지, 그리고 비용/효익 분석을 요청한다.
이런 연구는 개인 사용자가 LLM 시장에서 경쟁할 수 있게 해주는 데 매우 유용하다. '제로에서 하나로'라는 책의 내용과 일맥상통하는 훌륭한 작업이다.
NeurIPS 효율성 챌린지에서 모든 상위 입상작이 QLoRA를 사용했다는 점을 언급하지 않았는데, 이는 QLoRA의 중요성과 유용성을 보여주는 좋은 예시다.
'오픈 소스' LLM에서 본 가장 흥미롭고 건설적인 접근 방식이다. 학계도 이를 표준으로 삼았으면 좋겠다.
Metal에서의 빠른 훈련이 더 일찍 나왔으면 하는 바람이 있다. 현재로서는 Mac Studio가 대규모 모델 추론에 훨씬 저렴하고 충분히 빠르지만, 훈련 솔루션은 거의 존재하지 않는다.
기술적 글쓰기의 품질과 명확성이 훌륭하다.
LLM(70B) 가중치를 나만의 데이터로 재훈련할 수 있는지 궁금하다.
한정된 하드웨어 예산으로 LLM을 미세 조정하는 사람들에게 이는 획기적인 돌파구다.
FSDP 대신 DeepSpeed를 선택한 이유가 궁금하다.
모델을 미세 조정할 수 있게 되었을 때 성능 튜닝을 위해 사용한 도구가 있는지 궁금하다.
스파스화를 사용해본 적이 있는지, 이를 통해 더 적은 RAM으로 미세 조정이 가능할 것 같다는 생각이 든다.