Phi-3 기술 보고서

(arxiv.org)

8P by GN⁺ 2024-04-24 | ★ favorite | 댓글 2개

phi-3-mini 언어 모델 소개

phi-3-mini는 3.8B 파라미터를 가진 언어 모델로, 3.3조 토큰으로 학습되었음
학술 벤치마크와 내부 테스트 결과, Mixtral 8x7B, GPT-3.5 등의 모델과 견줄만한 성능을 보임 (MMLU 69%, MT-bench 8.38점)
휴대폰에 배포할 수 있을 정도로 작은 크기임에도 불구하고 뛰어난 성능을 보임
phi-2에 사용된 데이터셋을 확장한 버전으로, 필터링된 웹 데이터와 합성 데이터로 구성되어 있음
견고성, 안전성, 채팅 형식을 위해 추가적으로 정렬(align)되었음

phi-3-small, phi-3-medium 모델 소개

4.8조 토큰으로 학습된 7B, 14B 모델인 phi-3-small과 phi-3-medium의 초기 파라미터 스케일링 결과도 제공함
phi-3-mini보다 훨씬 뛰어난 성능을 보임 (MMLU 75%, 78%, MT-bench 8.7점, 8.9점)

GN⁺의 의견

휴대폰에서 사용할 수 있는 작은 크기의 언어 모델이 고성능을 보인다는 점이 인상적임. 앞으로 모바일 기기에서의 AI 활용 가능성이 더욱 높아질 것으로 보임
하지만 개인정보 보호나 프라이버시 이슈에 대한 우려가 있을 수 있음. 로컬 기기에서 처리되더라도 사용자 데이터가 안전하게 관리되어야 할 것임
웹 데이터와 합성 데이터를 활용한 학습 방식이 흥미로움. 데이터 수집과 정제에 많은 노력이 필요했을 것으로 보임. 고품질의 데이터가 좋은 성능으로 이어짐을 보여주는 사례
모델 크기에 따른 성능 비교 결과도 흥미로움. 적절한 크기의 모델을 선택하는 것이 효율성 측면에서 중요해 보임
Stability AI의 StableLM, Anthropic의 클로드 등 경량화된 오픈소스 언어모델들이 등장하고 있음. 다양한 활용 사례들이 나올 것으로 기대됨

▲

xguru 2024-04-24 [-]

Microsoft, 2.7B로 작지만 강력한 Phi-2 언어 모델 공개

답변달기

▲

GN⁺ 2024-04-24 [-]

Hacker News 의견

Phi-3 모델의 벤치마크 결과에 대해 신중한 해석이 필요함. 이전 Phi-2 모델의 실제 성능이 벤치마크 수치보다 낮았던 선례가 있음. 실제 활용이나 LMSYS 리더보드 순위로 직결되지 않을 수 있음.
그럼에도 Phi-3는 작은 모델 크기로 좋은 성능을 보여줌. GPT-4의 성능을 작은 모델로 전이하는 "합성 데이터"를 통한 증류(distillation) 방식이 효과적일 수 있음을 시사함. 거대 모델을 최적 학습 후 작은 모델로 증류하는 Chinchilla 방식의 가능성을 엿볼 수 있음.
LMSYS 영어 리더보드에서 Phi-3 모델들이 Llama 3, GPT-3.5 등과 견줄만한 성능을 보임. 특히 Phi-3-mini 3.8B는 3.8B 파라미터로 Llama 3 8B와 필적함. 휴대폰에서 돌아가는 GPT-4 수준의 오픈소스 LLM의 등장 가능성을 시사함.
다만 이런 벤치마크는 모델이 gaming하기 쉬운 한계가 있음. 개별 task보다는 전반적인 성능에 주목할 필요가 있음. 여러 관점에서 면밀한 검토가 필요할 듯함.
Phi-3 모델 중 일부가 HuggingFace에 공개됨. 모델 활용이 보다 용이해질 전망임.
그러나 실제 사용시 학습 데이터 외 영역에서는 많이 헛소리를 함. 좁은 태스크 finetuning에는 효과적이겠으나, 일반 대화에서 GPT-3.5를 대체하긴 어려울 듯함.
모델 가중치가 4k, 128k 컨텍스트 버전으로 HuggingFace에 공개됨. finetuning이나 RAG(Retrieval-Augmented Generation) 활용 가능성에 대한 관심이 모아짐.

답변달기