Microsoft, 2.7B로 작지만 강력한 Phi-2 언어 모델 공개

(microsoft.com)

17P by xguru 2023-12-15 | ★ favorite | 댓글 2개

SLM: Small Language Model
2.7B 모델임에도 최대 25배 큰 모델과 같거나 더 좋은 성능을 보임
- Mistral 7B, Llama-7B/13B 성능을 능가
- 코딩 및 수학같은 다단계 추론에서는 25배 큰 Llama-2-70B 모델보다도 뛰어남
- Google Gemini Nano 2 보다 더 작지만, 동일하거나 더 뛰어난 성능을 발휘
GPT-4, Llama-2 같은 모델보다 적은 컴퓨팅 파워로도 텍스트 생성, 이미지 설명 같은 유사한 작업 수행 가능
크기가 작기 때문에 기계적인 해석 가능성, 안전성 개선 또는 다양한 작업에 대한 파인튜닝 실험을 포함하여 연구자에게 이상적인 플레이그라운드임

▲

xguru 2023-12-15 [-]

Weights는 여기 https://huggingface.co/microsoft/phi-2

답변달기

▲

xguru 2023-12-15 [-]

Hacker News 의견

GPT-3와 Phi-2의 파라미터 수 비교
- GPT-3는 1740억 개의 파라미터를 가지고 있음.
- Phi-2는 27억 개의 파라미터를 가지고 있어, GPT-3보다 약 65배 작음.
훈련 데이터 양 비교
- GPT-3는 3000억 개의 토큰으로 훈련됨.
- Phi-2는 14000억 개의 토큰으로 훈련되어, GPT-3보다 약 5배 많은 데이터로 훈련됨.
인간 언어 습득과 인공지능
- 인간 아기가 언어를 배우는 데 약 3000만 개의 "토큰-동등" 학습 데이터가 필요함.
- 이는 인간의 생물학적 구조가 언어 습득에 특화되어 있으며, 가능한 인간 언어의 가설 공간을 줄이는 강력한 "가이드"나 제약을 가지고 있음을 시사함.
- 언어 모델이 더 적은 데이터로 학습할 수 있는 유사한 구조를 찾을 수 있는지 궁금함.
Phi-2의 가중치 공개 여부
- Phi-2의 가중치는 공개되었으나, Azure 스튜디오에 로그인해야만 다운로드할 수 있음.
- Azure AI 스튜디오에서 Phi-2 페이지를 찾아 "artifacts" 탭을 클릭하면 다운로드 가능함.
Phi-2 훈련 비용
- Phi-2는 96개의 A100 GPU에서 14일 동안 훈련됨.
- 이는 훈련 비용이 약 3만 USD 정도임을 의미함.
- LLM(Large Language Model) 훈련 비용이 자동차 구매 비용보다 저렴해지면, AI의 민주화에 크게 기여할 수 있음.
Phi-2의 연구용 제한
- "연구용으로만 사용"이라는 제한이 있음에도 불구하고, Phi-2의 성능은 다양한 기기에서의 로컬 사용 가능성을 높임.
- 성능이 우수하다고 주장되어 미래가 밝고/무섭다는 의견이 있음.
소형 모델 경쟁
- 최근 소형 모델 분야에서 심각한 경쟁이 있음.
- 이러한 소형 모델의 주요 목표는 휴대폰/노트북 등에 로컬로 배포되어 새로운 세대의 앱/사용자 인터페이스를 이끌어낼 수 있음.
Phi-2와 Mistral 7B의 성능 비교
- 27억 크기의 Phi-2가 70억 크기의 Mistral 7B보다 더 나은 성능을 보임은 인상적임.
웹사이트 접속 문제
- 웹사이트에 접속할 수 없으나, 캐시된 버전을 통해 확인 가능함.
Phi-2의 배포 방식
- Phi-1.5는 huggingface에 배포되었으나, Phi-2는 Azure AI 스튜디오에만 추가되어 개발자들이 가입하도록 유도함.
- Microsoft가 huggingface와 같은 ML의 GitHub에 참여하지 않는 이유에 대한 의문이 있음.
Phi-2 모델의 다운로드 가능 여부
- Phi-2 모델을 로컬로 다운로드할 수 있는지, 아니면 Azure에서만 사용 가능한지에 대한 질문이 있음.

답변달기