Microsoft, 2.7B로 작지만 강력한 Phi-2 언어 모델 공개
(microsoft.com)- SLM: Small Language Model
- 2.7B 모델임에도 최대 25배 큰 모델과 같거나 더 좋은 성능을 보임
- Mistral 7B, Llama-7B/13B 성능을 능가
- 코딩 및 수학같은 다단계 추론에서는 25배 큰 Llama-2-70B 모델보다도 뛰어남
- Google Gemini Nano 2 보다 더 작지만, 동일하거나 더 뛰어난 성능을 발휘
- GPT-4, Llama-2 같은 모델보다 적은 컴퓨팅 파워로도 텍스트 생성, 이미지 설명 같은 유사한 작업 수행 가능
- 크기가 작기 때문에 기계적인 해석 가능성, 안전성 개선 또는 다양한 작업에 대한 파인튜닝 실험을 포함하여 연구자에게 이상적인 플레이그라운드임
Hacker News 의견
- GPT-3와 Phi-2의 파라미터 수 비교
- GPT-3는 1740억 개의 파라미터를 가지고 있음.
- Phi-2는 27억 개의 파라미터를 가지고 있어, GPT-3보다 약 65배 작음.
- 훈련 데이터 양 비교
- GPT-3는 3000억 개의 토큰으로 훈련됨.
- Phi-2는 14000억 개의 토큰으로 훈련되어, GPT-3보다 약 5배 많은 데이터로 훈련됨.
- 인간 언어 습득과 인공지능
- 인간 아기가 언어를 배우는 데 약 3000만 개의 "토큰-동등" 학습 데이터가 필요함.
- 이는 인간의 생물학적 구조가 언어 습득에 특화되어 있으며, 가능한 인간 언어의 가설 공간을 줄이는 강력한 "가이드"나 제약을 가지고 있음을 시사함.
- 언어 모델이 더 적은 데이터로 학습할 수 있는 유사한 구조를 찾을 수 있는지 궁금함.
- Phi-2의 가중치 공개 여부
- Phi-2의 가중치는 공개되었으나, Azure 스튜디오에 로그인해야만 다운로드할 수 있음.
- Azure AI 스튜디오에서 Phi-2 페이지를 찾아 "artifacts" 탭을 클릭하면 다운로드 가능함.
- Phi-2 훈련 비용
- Phi-2는 96개의 A100 GPU에서 14일 동안 훈련됨.
- 이는 훈련 비용이 약 3만 USD 정도임을 의미함.
- LLM(Large Language Model) 훈련 비용이 자동차 구매 비용보다 저렴해지면, AI의 민주화에 크게 기여할 수 있음.
- Phi-2의 연구용 제한
- "연구용으로만 사용"이라는 제한이 있음에도 불구하고, Phi-2의 성능은 다양한 기기에서의 로컬 사용 가능성을 높임.
- 성능이 우수하다고 주장되어 미래가 밝고/무섭다는 의견이 있음.
- 소형 모델 경쟁
- 최근 소형 모델 분야에서 심각한 경쟁이 있음.
- 이러한 소형 모델의 주요 목표는 휴대폰/노트북 등에 로컬로 배포되어 새로운 세대의 앱/사용자 인터페이스를 이끌어낼 수 있음.
- Phi-2와 Mistral 7B의 성능 비교
- 27억 크기의 Phi-2가 70억 크기의 Mistral 7B보다 더 나은 성능을 보임은 인상적임.
- 웹사이트 접속 문제
- 웹사이트에 접속할 수 없으나, 캐시된 버전을 통해 확인 가능함.
- Phi-2의 배포 방식
- Phi-1.5는 huggingface에 배포되었으나, Phi-2는 Azure AI 스튜디오에만 추가되어 개발자들이 가입하도록 유도함.
- Microsoft가 huggingface와 같은 ML의 GitHub에 참여하지 않는 이유에 대한 의문이 있음.
- Phi-2 모델의 다운로드 가능 여부
- Phi-2 모델을 로컬로 다운로드할 수 있는지, 아니면 Azure에서만 사용 가능한지에 대한 질문이 있음.