스타트업에서 바닥부터 LLMs 훈련하기

▲

GN⁺ 2024-03-08 | parent | ★ favorite | on: 스타트업에서 바닥부터 LLMs 훈련하기(yitay.net)

Hacker News 의견

스타트업이란 소수의 인원과 대규모의 자금을 가지고 훈련 클러스터에 투자하는 조직을 의미함. 기사에서는 많은 스타트업들이나 기존 회사들이 서버를 임대하여 운영한다고 설명함. 대부분의 LLM(Large Language Model) 제작자들은 비슷한 하드웨어와 데이터를 사용하여 텍스트와 이미지 데이터로 훈련을 진행함. 각각의 LLM은 자신들만의 독특한 "비밀 소스"를 가지고 있어, 이것이 LLM의 출력 품질에 차이를 만듦. 그러나 전반적으로 이러한 과정은 에너지를 많이 소모하는 중복 작업처럼 보임.
이 글은 구글의 PaLM, UL2, Flan, Bard 등의 기술 리더였던 Yi Tay가 Reka의 공동 창립자가 되어 독립적인 스타트업으로 LLM을 훈련하는 경험에 대해 이야기한 것임. Yi Tay가 이 포스트를 작성하도록 유도한 대화는 여기에 기록됨.
Reka.ai에 대해 이 포스트를 통해 알게 됨. Reka.ai의 LLM은 해커뉴스에서 많이 논의되지 않았음. 호기심에 Reka Flash의 채팅 인터페이스를 ChatGPT 4, Gemini Advanced, Claude 3, Mistral Large와 비교해 테스트해봄. 결과는 여기에 있음. 전반적으로 Reka Flash는 다른 LLM들보다 눈에 띄게 나쁘거나 좋지 않음. 물론 확실히 판단하기 위해서는 더 많은 테스트가 필요함.
저자는 독자들이 "야생"을 "구글이 아닌 곳"으로 이해한다고 가정함. 이 글은 구글의 인프라와 하드웨어 팀에 많은 공을 돌리며, 구글 내부자가 다른 곳에서 관련 작업을 하게 된 관점을 읽고 싶어함.
Reka.AI의 주요 페이지는 토큰으로 결제하는 일반적인 ChatGPT 클론, 즉 LLM으로 보임. 이것이 다른 회사들과 어떻게 다른지는 명확하지 않음. 가격은 ChatGPT 3.5-Turbo와 비슷해 보임.
처음부터 LLM을 훈련하는 것은 원시 하드웨어 개선만큼이나 AI의 진화 속도와 범위에 중요한 문제임. 블로그는 재미있지만 다소 얕고 기술적이지 않으며, GPU 클러스터를 다룬 경험이 있는 사람에게는 놀라운 내용이 없음. 구글 밖에서 LLM을 위해 Jax를 PyTorch보다 추천하는 이유를 확실히 알 수 없음. 이 새로운 회사가 훈련 모험에 대한 더 기술적인 보고서를 발표하기를 바람.
이야기의 작은 부분만을 다루고 있으며, 회사를 시작하고 자금을 모으고 칩을 구매하여 GPT 3.5 수준의 LLM을 일 년도 채 안 되어 구축하고 많은 다른 제품들을 능가함. 칩/클라우드 GPU에 얼마의 예산이 소요되었는지 궁금함. 대략 200만에서 500만 달러 정도일까?
적절한 배경이나 경력이 없는 작은 스타트업들이 LLM 제품에 대한 자금을 어떻게 확보하는지가 큰 의문임. LLM 스타트업의 세계는 시드/펀딩을 위한 전제 조건이 명망 있는 고용 이력/적절한 경력과 제품이 시작되기 전에 투자할 준비가 된 탄탄한 투자자 네트워크를 가진 헤지펀드와 사모펀드의 세계와 비슷해 보임.
제목이 "ground zero" 대신 "from the ground up"이어야 하는 것은 아닌지 궁금함.
훈련 데이터 과정에 대한 이야기가 매우 흥미롭지만, 더 듣고 싶음.