Phi-3 기술 보고서

▲

GN⁺ 2024-04-24 | parent | ★ favorite | on: Phi-3 기술 보고서(arxiv.org)

Hacker News 의견

Phi-3 모델의 벤치마크 결과에 대해 신중한 해석이 필요함. 이전 Phi-2 모델의 실제 성능이 벤치마크 수치보다 낮았던 선례가 있음. 실제 활용이나 LMSYS 리더보드 순위로 직결되지 않을 수 있음.
그럼에도 Phi-3는 작은 모델 크기로 좋은 성능을 보여줌. GPT-4의 성능을 작은 모델로 전이하는 "합성 데이터"를 통한 증류(distillation) 방식이 효과적일 수 있음을 시사함. 거대 모델을 최적 학습 후 작은 모델로 증류하는 Chinchilla 방식의 가능성을 엿볼 수 있음.
LMSYS 영어 리더보드에서 Phi-3 모델들이 Llama 3, GPT-3.5 등과 견줄만한 성능을 보임. 특히 Phi-3-mini 3.8B는 3.8B 파라미터로 Llama 3 8B와 필적함. 휴대폰에서 돌아가는 GPT-4 수준의 오픈소스 LLM의 등장 가능성을 시사함.
다만 이런 벤치마크는 모델이 gaming하기 쉬운 한계가 있음. 개별 task보다는 전반적인 성능에 주목할 필요가 있음. 여러 관점에서 면밀한 검토가 필요할 듯함.
Phi-3 모델 중 일부가 HuggingFace에 공개됨. 모델 활용이 보다 용이해질 전망임.
그러나 실제 사용시 학습 데이터 외 영역에서는 많이 헛소리를 함. 좁은 태스크 finetuning에는 효과적이겠으나, 일반 대화에서 GPT-3.5를 대체하긴 어려울 듯함.
모델 가중치가 4k, 128k 컨텍스트 버전으로 HuggingFace에 공개됨. finetuning이나 RAG(Retrieval-Augmented Generation) 활용 가능성에 대한 관심이 모아짐.