4P by xguru 4달전 | favorite | 댓글 3개
  • Apple의 DataComp for Language Models 프로젝트 연구팀이 Hugging Face에 오픈 DCLM 모델 패밀리를 공개
  • 패키지에는 7B 및 1.4B 파라미터의 두 가지 주요 모델이 포함되어 있음
  • 70억(7B) 파라미터 모델은 벤치마크에서 좋은 성능을 보이며, Mistral-7B를 능가하고 Llama 3 및 Gemma와 같은 다른 주요 오픈 모델에 근접
  • 이 프로젝트는 모델 가중치, 학습 코드, 사전 학습 데이터셋을 공개하여 진정한 오픈 소스로 만들어짐

DCLM(DataComp for Language Models)

  • DataComp 프로젝트는 특히 멀티모달 도메인에서 AI 모델을 학습시키기 위한 고품질 데이터셋을 설계하기 위한 협업 노력으로 설명될 수 있음
  • 실험을 통해 기계 학습(ML) 모델이 더 큰 데이터셋에서 고품질 데이터를 자동으로 필터링하고 선택하는 모델 기반 필터링이 고품질 학습 세트를 구성하는 데 핵심이 될 수 있다는 것을 알아냄
  • 결과 데이터셋인 DCLM-Baseline은 70억 및 14억 파라미터의 새로운 DCLM 디코더 전용 트랜스포머 영어 언어 모델을 처음부터 학습시키는 데 사용됨
  • 70억 모델은 OpenLM 프레임워크를 기반으로 하는 사전 학습 레시피를 사용하여 2.5조개의 토큰으로 학습되었으며, MMLU에서 63.7%의 5-샷 정확도를 제공
  • 이는 이전의 최첨단 오픈 데이터 언어 모델인 MAP-Neo에 비해 6.6%p 향상된 것이며, 학습에 40% 적은 컴퓨팅을 사용한 것

강력하고 더 작은 모델

  • 14억(1.4B) 버전의 모델도 MMLU, Core, Extended 테스트에서 인상적인 성능을 보여줌
  • 5-샷 MMLU 테스트에서 41.9%를 기록했는데, 이는 Hugging Face의 최근 출시된 SmolLM을 포함한 이 카테고리의 다른 모델보다 상당히 높음
  • 현재 더 큰 모델은 Apple의 Sample Code License에 따라 사용할 수 있으며, 더 작은 모델은 상업적 사용, 배포 및 수정을 허용하는 Apache 2.0에 따라 공개되었음
  • HF 라이브러리에는 70억 파라미터 모델의 instruction-tuned 버전도 있음
  • 이는 데이터 큐레이션의 효과를 강조하는 초기 연구라는 점에 유의해야 함
    • 이 모델은 Apple 기기용이 아니며 테스트 학습 데이터에서 특정 편향이 나타나거나 유해한 반응을 일으킬 수 있음

아이폰에 달아야 효과가 극대화 되니까요
삼성도 온디바이스에 초점 맞추고 있고

Apple, 기기 내 사용을 목표로 하는 8개의 소형 AI 언어 모델 릴리즈

애플은 계속 온디바이스 AI를 위한 작은 모델에 집중하는 군요. 빨리 함 써보고 싶네요.

내년부터는 본격적으로 써볼 수 있지 않을까 싶네요 ㅎㅎ