- Apple이 스마트폰에서 직접 실행할 수 있을 정도로 작은 크기의 AI 언어 모델인 OpenELM을 공개
- OpenELM은 "Open-source Efficient Language Models"의 약자로, Hugging Face에서 Apple Sample Code License로 사용 가능
- 소스 코드는 공개되었으나 라이선스에 일부 제한이 있어 일반적인 "오픈 소스" 정의에는 맞지 않을 수 있음
OpenELM 모델의 특징
- OpenELM은 2억 7천만에서 30억 개의 매개변수를 가진 8개의 모델로 구성됨
- 최근 연구는 몇 년 전의 대규모 AI 언어 모델만큼 능력 있는 작은 AI 언어 모델 만들기에 초점을 맞추고 있음
- OpenELM 모델은 사전 학습된(pretrained) 버전과 명령어 학습된(instruction-tuned) 버전, 두 가지 유형으로 제공됨
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct
OpenELM 모델의 학습 데이터와 성능
- OpenELM은 최대 2048 토큰의 컨텍스트 윈도우를 가지고 있음
- 약 1.8조 개의 토큰 데이터로 학습되었으며, 이는 공개적으로 사용 가능한 RefinedWeb, PILE의 중복 제거 버전, RedPajama의 하위 집합, Dolma v1.6의 하위 집합 데이터셋을 포함
- Apple의 "layer-wise scaling strategy"를 통해 매개변수를 각 레이어에 더 효율적으로 할당하여 계산 자원을 절약하고 모델 성능을 향상
- OpenELM은 Allen AI의 OLMo 1B보다 절반의 사전 학습 토큰으로도 2.36% 더 정확한 성능을 보임
공개된 추가 자료와 Apple의 목표
- Apple은 OpenELM 학습에 사용된 CoreNet 라이브러리의 코드와 재현 가능한 학습 레시피를 공개
- 주요 기술 기업으로서는 이례적으로 가중치까지 공개하여 투명성을 강조
- 소스 코드, 모델 가중치, 학습 자료를 공개함으로써 "개방형 연구 커뮤니티를 강화하고 풍부하게 만드는 것"이 목표
- 그러나 공개 데이터셋으로 학습되었기에 부정확하거나 유해하거나 편향되거나 반감을 살만한 출력물이 나올 가능성이 있음을 경고
향후 전망
- Apple은 아직 새로운 AI 언어 모델 기능을 소비자 기기에 통합하지는 않았음
- 그러나 6월 WWDC에서 공개될 것으로 예상되는 iOS 18 업데이트에는 사용자 개인 정보 보호를 위해 기기 내 처리를 활용하는 새로운 AI 기능이 포함될 것으로 추측됨
- 더 복잡한 기기 외부 AI 처리를 위해 Google이나 OpenAI를 고용하여 Siri를 업그레이드할 가능성도 있음