# Microsoft, 2.7B로 작지만 강력한 Phi-2 언어 모델 공개

> Clean Markdown view of GeekNews topic #12342. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=12342](https://news.hada.io/topic?id=12342)
- GeekNews Markdown: [https://news.hada.io/topic/12342.md](https://news.hada.io/topic/12342.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-12-15T09:21:19+09:00
- Updated: 2023-12-15T09:21:19+09:00
- Original source: [microsoft.com](https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/)
- Points: 17
- Comments: 2

## Topic Body

- SLM: Small Language Model  
- 2.7B 모델임에도 최대 25배 큰 모델과 같거나 더 좋은 성능을 보임  
  - Mistral 7B, Llama-7B/13B 성능을 능가   
  - 코딩 및 수학같은 다단계 추론에서는 25배 큰 Llama-2-70B 모델보다도 뛰어남   
  - Google Gemini Nano 2 보다 더 작지만, 동일하거나 더 뛰어난 성능을 발휘   
- GPT-4, Llama-2 같은 모델보다 적은 컴퓨팅 파워로도 텍스트 생성, 이미지 설명 같은 유사한 작업 수행 가능   
- 크기가 작기 때문에 기계적인 해석 가능성, 안전성 개선 또는 다양한 작업에 대한 파인튜닝 실험을 포함하여 연구자에게 이상적인 플레이그라운드임

## Comments


### Comment 21424

- Author: xguru
- Created: 2023-12-15T11:11:24+09:00
- Points: 1

Weights는 여기 https://huggingface.co/microsoft/phi-2

### Comment 21415

- Author: xguru
- Created: 2023-12-15T09:21:35+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=38614361)   
- GPT-3와 Phi-2의 파라미터 수 비교  
  - GPT-3는 1740억 개의 파라미터를 가지고 있음.  
  - Phi-2는 27억 개의 파라미터를 가지고 있어, GPT-3보다 약 65배 작음.  
- 훈련 데이터 양 비교  
  - GPT-3는 3000억 개의 토큰으로 훈련됨.  
  - Phi-2는 14000억 개의 토큰으로 훈련되어, GPT-3보다 약 5배 많은 데이터로 훈련됨.  
- 인간 언어 습득과 인공지능  
  - 인간 아기가 언어를 배우는 데 약 3000만 개의 "토큰-동등" 학습 데이터가 필요함.  
  - 이는 인간의 생물학적 구조가 언어 습득에 특화되어 있으며, 가능한 인간 언어의 가설 공간을 줄이는 강력한 "가이드"나 제약을 가지고 있음을 시사함.  
  - 언어 모델이 더 적은 데이터로 학습할 수 있는 유사한 구조를 찾을 수 있는지 궁금함.  
- Phi-2의 가중치 공개 여부  
  - Phi-2의 가중치는 공개되었으나, Azure 스튜디오에 로그인해야만 다운로드할 수 있음.  
  - Azure AI 스튜디오에서 Phi-2 페이지를 찾아 "artifacts" 탭을 클릭하면 다운로드 가능함.  
- Phi-2 훈련 비용  
  - Phi-2는 96개의 A100 GPU에서 14일 동안 훈련됨.  
  - 이는 훈련 비용이 약 3만 USD 정도임을 의미함.  
  - LLM(Large Language Model) 훈련 비용이 자동차 구매 비용보다 저렴해지면, AI의 민주화에 크게 기여할 수 있음.  
- Phi-2의 연구용 제한  
  - "연구용으로만 사용"이라는 제한이 있음에도 불구하고, Phi-2의 성능은 다양한 기기에서의 로컬 사용 가능성을 높임.  
  - 성능이 우수하다고 주장되어 미래가 밝고/무섭다는 의견이 있음.  
- 소형 모델 경쟁  
  - 최근 소형 모델 분야에서 심각한 경쟁이 있음.  
  - 이러한 소형 모델의 주요 목표는 휴대폰/노트북 등에 로컬로 배포되어 새로운 세대의 앱/사용자 인터페이스를 이끌어낼 수 있음.  
- Phi-2와 Mistral 7B의 성능 비교  
  - 27억 크기의 Phi-2가 70억 크기의 Mistral 7B보다 더 나은 성능을 보임은 인상적임.  
- 웹사이트 접속 문제  
  - 웹사이트에 접속할 수 없으나, 캐시된 버전을 통해 확인 가능함.  
- Phi-2의 배포 방식  
  - Phi-1.5는 huggingface에 배포되었으나, Phi-2는 Azure AI 스튜디오에만 추가되어 개발자들이 가입하도록 유도함.  
  - Microsoft가 huggingface와 같은 ML의 GitHub에 참여하지 않는 이유에 대한 의문이 있음.  
- Phi-2 모델의 다운로드 가능 여부  
  - Phi-2 모델을 로컬로 다운로드할 수 있는지, 아니면 Azure에서만 사용 가능한지에 대한 질문이 있음.