# Phi-3 기술 보고서

> Clean Markdown view of GeekNews topic #14473. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14473](https://news.hada.io/topic?id=14473)
- GeekNews Markdown: [https://news.hada.io/topic/14473.md](https://news.hada.io/topic/14473.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-04-24T10:03:43+09:00
- Updated: 2024-04-24T10:03:43+09:00
- Original source: [arxiv.org](https://arxiv.org/abs/2404.14219)
- Points: 8
- Comments: 2

## Topic Body

### phi-3-mini 언어 모델 소개

- phi-3-mini는 3.8B 파라미터를 가진 언어 모델로, 3.3조 토큰으로 학습되었음
- 학술 벤치마크와 내부 테스트 결과, Mixtral 8x7B, GPT-3.5 등의 모델과 견줄만한 성능을 보임 (MMLU 69%, MT-bench 8.38점)
- 휴대폰에 배포할 수 있을 정도로 작은 크기임에도 불구하고 뛰어난 성능을 보임
- phi-2에 사용된 데이터셋을 확장한 버전으로, 필터링된 웹 데이터와 합성 데이터로 구성되어 있음
- 견고성, 안전성, 채팅 형식을 위해 추가적으로 정렬(align)되었음 

### phi-3-small, phi-3-medium 모델 소개

- 4.8조 토큰으로 학습된 7B, 14B 모델인 phi-3-small과 phi-3-medium의 초기 파라미터 스케일링 결과도 제공함
- phi-3-mini보다 훨씬 뛰어난 성능을 보임 (MMLU 75%, 78%, MT-bench 8.7점, 8.9점)

### GN⁺의 의견

- 휴대폰에서 사용할 수 있는 작은 크기의 언어 모델이 고성능을 보인다는 점이 인상적임. 앞으로 모바일 기기에서의 AI 활용 가능성이 더욱 높아질 것으로 보임 
- 하지만 개인정보 보호나 프라이버시 이슈에 대한 우려가 있을 수 있음. 로컬 기기에서 처리되더라도 사용자 데이터가 안전하게 관리되어야 할 것임
- 웹 데이터와 합성 데이터를 활용한 학습 방식이 흥미로움. 데이터 수집과 정제에 많은 노력이 필요했을 것으로 보임. 고품질의 데이터가 좋은 성능으로 이어짐을 보여주는 사례
- 모델 크기에 따른 성능 비교 결과도 흥미로움. 적절한 크기의 모델을 선택하는 것이 효율성 측면에서 중요해 보임
- Stability AI의 StableLM, Anthropic의 클로드 등 경량화된 오픈소스 언어모델들이 등장하고 있음. 다양한 활용 사례들이 나올 것으로 기대됨

## Comments


### Comment 24648

- Author: xguru
- Created: 2024-04-24T10:10:47+09:00
- Points: 1

[Microsoft, 2.7B로 작지만 강력한 Phi-2 언어 모델 공개](https://news.hada.io/topic?id=12342)

### Comment 24643

- Author: neo
- Created: 2024-04-24T10:03:43+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=40127806) 
- Phi-3 모델의 벤치마크 결과에 대해 신중한 해석이 필요함. 이전 Phi-2 모델의 실제 성능이 벤치마크 수치보다 낮았던 선례가 있음. 실제 활용이나 LMSYS 리더보드 순위로 직결되지 않을 수 있음.

- 그럼에도 Phi-3는 작은 모델 크기로 좋은 성능을 보여줌. GPT-4의 성능을 작은 모델로 전이하는 "합성 데이터"를 통한 증류(distillation) 방식이 효과적일 수 있음을 시사함. 거대 모델을 최적 학습 후 작은 모델로 증류하는 Chinchilla 방식의 가능성을 엿볼 수 있음.

- LMSYS 영어 리더보드에서 Phi-3 모델들이 Llama 3, GPT-3.5 등과 견줄만한 성능을 보임. 특히 Phi-3-mini 3.8B는 3.8B 파라미터로 Llama 3 8B와 필적함. 휴대폰에서 돌아가는 GPT-4 수준의 오픈소스 LLM의 등장 가능성을 시사함. 

- 다만 이런 벤치마크는 모델이 gaming하기 쉬운 한계가 있음. 개별 task보다는 전반적인 성능에 주목할 필요가 있음. 여러 관점에서 면밀한 검토가 필요할 듯함.

- Phi-3 모델 중 일부가 HuggingFace에 공개됨. 모델 활용이 보다 용이해질 전망임.

- 3.3조 토큰의 방대한 합성 데이터 학습이 모델 경량화에 기여함. 저작권 문제 해소에도 도움이 될 수 있음. 

- 그러나 실제 사용시 학습 데이터 외 영역에서는 많이 헛소리를 함. 좁은 태스크 finetuning에는 효과적이겠으나, 일반 대화에서 GPT-3.5를 대체하긴 어려울 듯함. 

- 모델 가중치가 4k, 128k 컨텍스트 버전으로 HuggingFace에 공개됨. finetuning이나 RAG(Retrieval-Augmented Generation) 활용 가능성에 대한 관심이 모아짐.