8P by neo 2달전 | favorite | 댓글 2개

phi-3-mini 언어 모델 소개

  • phi-3-mini는 3.8B 파라미터를 가진 언어 모델로, 3.3조 토큰으로 학습되었음
  • 학술 벤치마크와 내부 테스트 결과, Mixtral 8x7B, GPT-3.5 등의 모델과 견줄만한 성능을 보임 (MMLU 69%, MT-bench 8.38점)
  • 휴대폰에 배포할 수 있을 정도로 작은 크기임에도 불구하고 뛰어난 성능을 보임
  • phi-2에 사용된 데이터셋을 확장한 버전으로, 필터링된 웹 데이터와 합성 데이터로 구성되어 있음
  • 견고성, 안전성, 채팅 형식을 위해 추가적으로 정렬(align)되었음

phi-3-small, phi-3-medium 모델 소개

  • 4.8조 토큰으로 학습된 7B, 14B 모델인 phi-3-small과 phi-3-medium의 초기 파라미터 스케일링 결과도 제공함
  • phi-3-mini보다 훨씬 뛰어난 성능을 보임 (MMLU 75%, 78%, MT-bench 8.7점, 8.9점)

GN⁺의 의견

  • 휴대폰에서 사용할 수 있는 작은 크기의 언어 모델이 고성능을 보인다는 점이 인상적임. 앞으로 모바일 기기에서의 AI 활용 가능성이 더욱 높아질 것으로 보임
  • 하지만 개인정보 보호나 프라이버시 이슈에 대한 우려가 있을 수 있음. 로컬 기기에서 처리되더라도 사용자 데이터가 안전하게 관리되어야 할 것임
  • 웹 데이터와 합성 데이터를 활용한 학습 방식이 흥미로움. 데이터 수집과 정제에 많은 노력이 필요했을 것으로 보임. 고품질의 데이터가 좋은 성능으로 이어짐을 보여주는 사례
  • 모델 크기에 따른 성능 비교 결과도 흥미로움. 적절한 크기의 모델을 선택하는 것이 효율성 측면에서 중요해 보임
  • Stability AI의 StableLM, Anthropic의 클로드 등 경량화된 오픈소스 언어모델들이 등장하고 있음. 다양한 활용 사례들이 나올 것으로 기대됨
Hacker News 의견
  • Phi-3 모델의 벤치마크 결과에 대해 신중한 해석이 필요함. 이전 Phi-2 모델의 실제 성능이 벤치마크 수치보다 낮았던 선례가 있음. 실제 활용이나 LMSYS 리더보드 순위로 직결되지 않을 수 있음.

  • 그럼에도 Phi-3는 작은 모델 크기로 좋은 성능을 보여줌. GPT-4의 성능을 작은 모델로 전이하는 "합성 데이터"를 통한 증류(distillation) 방식이 효과적일 수 있음을 시사함. 거대 모델을 최적 학습 후 작은 모델로 증류하는 Chinchilla 방식의 가능성을 엿볼 수 있음.

  • LMSYS 영어 리더보드에서 Phi-3 모델들이 Llama 3, GPT-3.5 등과 견줄만한 성능을 보임. 특히 Phi-3-mini 3.8B는 3.8B 파라미터로 Llama 3 8B와 필적함. 휴대폰에서 돌아가는 GPT-4 수준의 오픈소스 LLM의 등장 가능성을 시사함.

  • 다만 이런 벤치마크는 모델이 gaming하기 쉬운 한계가 있음. 개별 task보다는 전반적인 성능에 주목할 필요가 있음. 여러 관점에서 면밀한 검토가 필요할 듯함.

  • Phi-3 모델 중 일부가 HuggingFace에 공개됨. 모델 활용이 보다 용이해질 전망임.

  • 3.3조 토큰의 방대한 합성 데이터 학습이 모델 경량화에 기여함. 저작권 문제 해소에도 도움이 될 수 있음.

  • 그러나 실제 사용시 학습 데이터 외 영역에서는 많이 헛소리를 함. 좁은 태스크 finetuning에는 효과적이겠으나, 일반 대화에서 GPT-3.5를 대체하긴 어려울 듯함.

  • 모델 가중치가 4k, 128k 컨텍스트 버전으로 HuggingFace에 공개됨. finetuning이나 RAG(Retrieval-Augmented Generation) 활용 가능성에 대한 관심이 모아짐.