Apple, 개방형 AI 역량 과시: 새로 공개한 모델이 Mistral보다 뛰어난 성능 발휘

(venturebeat.com)

4P by xguru 2024-07-23 | ★ favorite | 댓글 3개

Apple의 DataComp for Language Models 프로젝트 연구팀이 Hugging Face에 오픈 DCLM 모델 패밀리를 공개
패키지에는 7B 및 1.4B 파라미터의 두 가지 주요 모델이 포함되어 있음
70억(7B) 파라미터 모델은 벤치마크에서 좋은 성능을 보이며, Mistral-7B를 능가하고 Llama 3 및 Gemma와 같은 다른 주요 오픈 모델에 근접
이 프로젝트는 모델 가중치, 학습 코드, 사전 학습 데이터셋을 공개하여 진정한 오픈 소스로 만들어짐

DCLM(DataComp for Language Models)

DataComp 프로젝트는 특히 멀티모달 도메인에서 AI 모델을 학습시키기 위한 고품질 데이터셋을 설계하기 위한 협업 노력으로 설명될 수 있음
실험을 통해 기계 학습(ML) 모델이 더 큰 데이터셋에서 고품질 데이터를 자동으로 필터링하고 선택하는 모델 기반 필터링이 고품질 학습 세트를 구성하는 데 핵심이 될 수 있다는 것을 알아냄
결과 데이터셋인 DCLM-Baseline은 70억 및 14억 파라미터의 새로운 DCLM 디코더 전용 트랜스포머 영어 언어 모델을 처음부터 학습시키는 데 사용됨
70억 모델은 OpenLM 프레임워크를 기반으로 하는 사전 학습 레시피를 사용하여 2.5조개의 토큰으로 학습되었으며, MMLU에서 63.7%의 5-샷 정확도를 제공
이는 이전의 최첨단 오픈 데이터 언어 모델인 MAP-Neo에 비해 6.6%p 향상된 것이며, 학습에 40% 적은 컴퓨팅을 사용한 것

강력하고 더 작은 모델

14억(1.4B) 버전의 모델도 MMLU, Core, Extended 테스트에서 인상적인 성능을 보여줌
5-샷 MMLU 테스트에서 41.9%를 기록했는데, 이는 Hugging Face의 최근 출시된 SmolLM을 포함한 이 카테고리의 다른 모델보다 상당히 높음
현재 더 큰 모델은 Apple의 Sample Code License에 따라 사용할 수 있으며, 더 작은 모델은 상업적 사용, 배포 및 수정을 허용하는 Apache 2.0에 따라 공개되었음
HF 라이브러리에는 70억 파라미터 모델의 instruction-tuned 버전도 있음
이는 데이터 큐레이션의 효과를 강조하는 초기 연구라는 점에 유의해야 함
- 이 모델은 Apple 기기용이 아니며 테스트 학습 데이터에서 특정 편향이 나타나거나 유해한 반응을 일으킬 수 있음

j2sus91 2024-07-23 [-]

아이폰에 달아야 효과가 극대화 되니까요
삼성도 온디바이스에 초점 맞추고 있고

xguru 2024-07-23 [-]

Apple, 기기 내 사용을 목표로 하는 8개의 소형 AI 언어 모델 릴리즈

애플은 계속 온디바이스 AI를 위한 작은 모델에 집중하는 군요. 빨리 함 써보고 싶네요.

godrm 2024-07-23 [-]

내년부터는 본격적으로 써볼 수 있지 않을까 싶네요 ㅎㅎ