Llama 고려하기 폐쇄형 소스 AI 모델들은 불행한 결말을 맞게 될 것인가?
(weightythoughts.com)Unix vs. LInux
Oracle vs. MySQL
오픈소스는 협업을 통해 혁신을 이뤄냈습니다. 오픈소스의 힘은 투명성과 협업입니다. 리눅스, MySQL 등의 성공적인 오픈소스는 그 결과이죠.
GPT-n vs. Llama ?
라마는 오픈 혁신의 한계가 있습니다.
라마 모델을 혁신하기 위해서는 사전훈련이 가능해야 하지만, 현재는 사후훈련만 가능합니다. 그 이유는 라마 학습데이터를 공개하지 않았기 때문입니다. AI, 딥러닝에서의 소스코드는 훈련데이터셋입니다. 그러나, 라마는 모델웨이트만 공개하고, 훈련데이터, 모델트레이닝 코드, 하이퍼파라미터 등은 공개하지 않았습니다. 현재 라마웨이트로는, 파인튜닝, 경량화 등의 튜닝성 혁신은 가능하지만, 사전훈련을 통해서만 가능한 모델웨이트 혁신은 불가능합니다. 왜냐하면, AI, 딥러닝에서는 훈련데이터셋을 개발하는 것이 코딩이고 디버깅이기 때문입니다. 라마의 학습데이터는 비공개라서, 대중이 협업해서 개선할 방법이 없습니다. 이런면에서, 라마는 오픈소스라고 보기 어렵습니다.
또한, 커뮤니티의 GPU 자원부족입니다.
라마 훈련에는 H100*16k GPU가 사용되었다고 합니다. GPU만 6천억원이 넘죠. 이를 돌릴 인프라 및 전기료 등의 추가비용까지 감안하면 1조원은 그냥 넘을것입니다. 아무나 시도할 수 있는 일이 아닙니다. 오픈소스 커뮤니티에서 혁신이 가능하려면, 공공의 GPU 클러스터가 있어야 할것입니다.
요약하면
AI, 딥러닝 분야에서 오픈 이노베이션이 가능하려면 최소한 다음 두 가지가 되야 합니다.
- 훈련데이터 공개
- 대규모 공공 GPU 클러스터 제공
하지만, 1번은 저작권 문제로 가능성이 희박합니다. 그리고 2번은 1조원이 필요합니다.
결론은, 현재 상황에서 AI, 딥러닝 분야의 오픈 이노베이션은 그 가능성이 매우 희박하다 입니다. 하지만, GPU 또는 뉴로모픽칩 등의 하드웨어 혁신이 일어나면 얘기는 달라지겠죠.