GN⁺: 스타트업에서 바닥부터 LLMs 훈련하기
(yitay.net)LLM을 처음부터 완전히 훈련시키기
- Reka에서 강력한 멀티모달 언어 모델을 성공적으로 훈련시킨 경험에 대한 호기심이 많음.
- 인프라 구축과 큰 언어 및 멀티모달 모델을 처음부터 훈련하는 과정의 도전과 교훈을 공유함.
- 이 포스트가 많은 사람들에게 흥미롭고 교육적이기를 바람.
LLM 시대의 하드웨어 복권
- 모델 훈련을 위한 첫 번째 필수 요소는 컴퓨팅 파워 확보임.
- 컴퓨팅 제공업체의 불안정성과 클러스터, 가속기, 연결성의 품질 차이에 놀람.
- 하드웨어의 품질 차이가 크며, 이는 훈련에 있어서 실제로 '하드웨어 복권'과 같음.
GPU 대 TPU
- Reka에서는 주로 GPU를 사용하여 모델을 훈련함.
- Google에서 TPU를 사용한 경험과 비교했을 때, GPU의 실패율에 놀람.
- 하드웨어 팀의 역량이 중요하며, 이는 '하드웨어 복권' 개념을 강화함.
멀티 클러스터 설정의 고통
- 여러 클러스터에서 새로운 환경을 설정해야 하는 개념이 낯설음.
- 여러 클러스터의 가속기 풀을 가지는 것이 불가피함.
- 대규모 데이터를 다루는 데 있어 불편함이 있으며, 데이터 복제는 대규모에서 간단하지 않음.
야생의 코드
- T5X와 MeshTensorflow가 좋아하는 코드베이스였으나, Google 외부에서는 지원이 적고, 사용하기 어려움.
- 더 접근하기 쉬운 PyTorch를 선택함.
- 외부의 코드베이스 품질이 Google 내부에 비해 뒤떨어짐을 느낌.
덜 원칙적이고, 더 Yolo
- 원칙적으로 모델을 체계적으로 확장해야 하지만, 스타트업에서는 계산 리소스가 적어 많은 Yolo 실행을 함.
- 제한된 시도로 강력한 모델을 훈련시키는 것은 도전적임.
요약
- 야생에서의 경험은 흥미롭지만 고통스러웠음.
- 컴퓨팅 자원의 부족과 불안정한 제공업체로 인해 예상보다 어려웠으나 기술적인 힘으로 극복함.
- 회사를 시작하고, 자금을 모으고, 칩을 구매하여 Gemini pro/GPT 3.5와 경쟁하고 다른 많은 이들을 능가하는 과정의 일부만을 이야기함.
GN⁺의 의견
- 이 기사는 스타트업이 대규모 언어 모델을 처음부터 훈련시키는 과정에서 겪는 실제 문제와 도전을 잘 보여줌. 이는 초급 소프트웨어 엔지니어에게 현실적인 인사이트를 제공할 수 있음.
- 하드웨어 선택의 중요성과 이에 따른 실패율, 지원 수준의 차이는 스타트업이나 작은 회사에서 큰 프로젝트를 시작할 때 반드시 고려해야 할 사항임.
- 이 기사는 Google과 같은 대기업의 인프라와 비교하여 스타트업이 직면하는 기술적 제약을 강조함. 이는 스타트업이 기술 선택을 할 때 신중해야 하는 이유를 보여줌.
- 스타트업이 대규모 모델을 훈련시키기 위해 필요한 인프라와 도구를 구축하는 과정은 매우 복잡하고 어려울 수 있음을 시사함. 이는 클라우드 서비스 제공업체의 선택이나 자체 하드웨어 구축 결정에 있어 중요한 고려 사항임.
- 기술적인 문제와 도전에도 불구하고, 스타트업이 기술적인 힘으로 어려움을 극복하고 성공적인 결과를 얻을 수 있다는 긍정적인 메시지를 전달함.
Hacker News 의견
- 스타트업이란 소수의 인원과 대규모의 자금을 가지고 훈련 클러스터에 투자하는 조직을 의미함. 기사에서는 많은 스타트업들이나 기존 회사들이 서버를 임대하여 운영한다고 설명함. 대부분의 LLM(Large Language Model) 제작자들은 비슷한 하드웨어와 데이터를 사용하여 텍스트와 이미지 데이터로 훈련을 진행함. 각각의 LLM은 자신들만의 독특한 "비밀 소스"를 가지고 있어, 이것이 LLM의 출력 품질에 차이를 만듦. 그러나 전반적으로 이러한 과정은 에너지를 많이 소모하는 중복 작업처럼 보임.
- 이 글은 구글의 PaLM, UL2, Flan, Bard 등의 기술 리더였던 Yi Tay가 Reka의 공동 창립자가 되어 독립적인 스타트업으로 LLM을 훈련하는 경험에 대해 이야기한 것임. Yi Tay가 이 포스트를 작성하도록 유도한 대화는 여기에 기록됨.
- Reka.ai에 대해 이 포스트를 통해 알게 됨. Reka.ai의 LLM은 해커뉴스에서 많이 논의되지 않았음. 호기심에 Reka Flash의 채팅 인터페이스를 ChatGPT 4, Gemini Advanced, Claude 3, Mistral Large와 비교해 테스트해봄. 결과는 여기에 있음. 전반적으로 Reka Flash는 다른 LLM들보다 눈에 띄게 나쁘거나 좋지 않음. 물론 확실히 판단하기 위해서는 더 많은 테스트가 필요함.
- 저자는 독자들이 "야생"을 "구글이 아닌 곳"으로 이해한다고 가정함. 이 글은 구글의 인프라와 하드웨어 팀에 많은 공을 돌리며, 구글 내부자가 다른 곳에서 관련 작업을 하게 된 관점을 읽고 싶어함.
- Reka.AI의 주요 페이지는 토큰으로 결제하는 일반적인 ChatGPT 클론, 즉 LLM으로 보임. 이것이 다른 회사들과 어떻게 다른지는 명확하지 않음. 가격은 ChatGPT 3.5-Turbo와 비슷해 보임.
- 처음부터 LLM을 훈련하는 것은 원시 하드웨어 개선만큼이나 AI의 진화 속도와 범위에 중요한 문제임. 블로그는 재미있지만 다소 얕고 기술적이지 않으며, GPU 클러스터를 다룬 경험이 있는 사람에게는 놀라운 내용이 없음. 구글 밖에서 LLM을 위해 Jax를 PyTorch보다 추천하는 이유를 확실히 알 수 없음. 이 새로운 회사가 훈련 모험에 대한 더 기술적인 보고서를 발표하기를 바람.
- 이야기의 작은 부분만을 다루고 있으며, 회사를 시작하고 자금을 모으고 칩을 구매하여 GPT 3.5 수준의 LLM을 일 년도 채 안 되어 구축하고 많은 다른 제품들을 능가함. 칩/클라우드 GPU에 얼마의 예산이 소요되었는지 궁금함. 대략 200만에서 500만 달러 정도일까?
- 적절한 배경이나 경력이 없는 작은 스타트업들이 LLM 제품에 대한 자금을 어떻게 확보하는지가 큰 의문임. LLM 스타트업의 세계는 시드/펀딩을 위한 전제 조건이 명망 있는 고용 이력/적절한 경력과 제품이 시작되기 전에 투자할 준비가 된 탄탄한 투자자 네트워크를 가진 헤지펀드와 사모펀드의 세계와 비슷해 보임.
- 제목이 "ground zero" 대신 "from the ground up"이어야 하는 것은 아닌지 궁금함.
- 훈련 데이터 과정에 대한 이야기가 매우 흥미롭지만, 더 듣고 싶음.