2P by brainer 15일전 | favorite | 댓글 1개

• OpenELM은 대형 언어 모델 분야에서 재현성과 투명성을 촉진하는 최첨단 개방형 언어 모델로 소개되고 있다. OpenELM은 계층별 스케일링 전략을 사용함으로써 각 변압기 모델 계층 내에서 매개변수를 효율적으로 할당하여 정확도를 향상시킨다. 예를 들어, 약 10억의 매개변수 예산으로 OpenELM은 사전 훈련 토큰의 절반을 필요로 하면서 OLMo를 2.36% 능가한다.

• 모델 가중치와 추론 코드만 제공했던 이전 관행과 달리 OpenELM은 공개적으로 사용 가능한 데이터 세트를 사용하여 언어 모델을 훈련하고 평가하기 위한 포괄적인 프레임워크를 제공한다. 여기에는 훈련 로그, 여러 체크포인트 및 사전 훈련 구성이 포함됩니다. 또한 애플 장치에서 추론 및 미세 조정을 위해 모델을 MLX 라이브러리로 변환하는 코드가 제공된다.

• OpenELM의 출시는 완전한 훈련 및 추론 프레임워크에 대한 액세스를 제공하여 개방형 연구 커뮤니티에 권한을 부여하여 미래의 개방형 연구 노력을 육성하는 것을 목표로 한다. 소스 코드, 사전 훈련된 모델 가중치 및 훈련 레시피는 허깅페이스에서 모델 접근성과 함께 쉽게 사용할 수 있다.

Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU

주변 반응들을 살펴보니 MMLU가 너무 낮고 훈련에 사용한 데이터셋들이 좀 예전 것들이라는 말들이 있네요.
예전 모델이라 일부러 오픈소스화 한게 아니냐는 말도...