Apple, 기기 내 사용을 목표로 하는 8개의 소형 AI 언어 모델 릴리즈

(arstechnica.com)

7P by xguru 2024-04-29 | ★ favorite | 댓글 2개

Apple이 스마트폰에서 직접 실행할 수 있을 정도로 작은 크기의 AI 언어 모델인 OpenELM을 공개
OpenELM은 "Open-source Efficient Language Models"의 약자로, Hugging Face에서 Apple Sample Code License로 사용 가능
소스 코드는 공개되었으나 라이선스에 일부 제한이 있어 일반적인 "오픈 소스" 정의에는 맞지 않을 수 있음

OpenELM 모델의 특징

OpenELM은 2억 7천만에서 30억 개의 매개변수를 가진 8개의 모델로 구성됨
최근 연구는 몇 년 전의 대규모 AI 언어 모델만큼 능력 있는 작은 AI 언어 모델 만들기에 초점을 맞추고 있음
OpenELM 모델은 사전 학습된(pretrained) 버전과 명령어 학습된(instruction-tuned) 버전, 두 가지 유형으로 제공됨
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct

OpenELM 모델의 학습 데이터와 성능

OpenELM은 최대 2048 토큰의 컨텍스트 윈도우를 가지고 있음
약 1.8조 개의 토큰 데이터로 학습되었으며, 이는 공개적으로 사용 가능한 RefinedWeb, PILE의 중복 제거 버전, RedPajama의 하위 집합, Dolma v1.6의 하위 집합 데이터셋을 포함
Apple의 "layer-wise scaling strategy"를 통해 매개변수를 각 레이어에 더 효율적으로 할당하여 계산 자원을 절약하고 모델 성능을 향상
OpenELM은 Allen AI의 OLMo 1B보다 절반의 사전 학습 토큰으로도 2.36% 더 정확한 성능을 보임

공개된 추가 자료와 Apple의 목표

Apple은 OpenELM 학습에 사용된 CoreNet 라이브러리의 코드와 재현 가능한 학습 레시피를 공개
주요 기술 기업으로서는 이례적으로 가중치까지 공개하여 투명성을 강조
소스 코드, 모델 가중치, 학습 자료를 공개함으로써 "개방형 연구 커뮤니티를 강화하고 풍부하게 만드는 것"이 목표
그러나 공개 데이터셋으로 학습되었기에 부정확하거나 유해하거나 편향되거나 반감을 살만한 출력물이 나올 가능성이 있음을 경고

향후 전망

Apple은 아직 새로운 AI 언어 모델 기능을 소비자 기기에 통합하지는 않았음
그러나 6월 WWDC에서 공개될 것으로 예상되는 iOS 18 업데이트에는 사용자 개인 정보 보호를 위해 기기 내 처리를 활용하는 새로운 AI 기능이 포함될 것으로 추측됨
더 복잡한 기기 외부 AI 처리를 위해 Google이나 OpenAI를 고용하여 Siri를 업그레이드할 가능성도 있음

composite 2024-04-29 [-]

AI 돌릴려면 아이폰 15부터 되겠죠 아머?

tsboard 2024-04-29 [-]

iOS 18 업데이트 과연 얼마나 크게 바뀔지 궁금합니다. AI 기능 보강된 M4도 기대기대!