Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU

주변 반응들을 살펴보니 MMLU가 너무 낮고 훈련에 사용한 데이터셋들이 좀 예전 것들이라는 말들이 있네요.
예전 모델이라 일부러 오픈소스화 한게 아니냐는 말도...