Apple, 온디바이스 및 클라우드 AI 모델 대폭 업데이트 및 새로운 개발자 API 공개

(deeplearning.ai)

Apple이 비전-언어 AI 모델(AFN, Apple Foundation Models)과 개발자용 Foundation Models 프레임워크(API) 를 새롭게 공개하며, 온디바이스·클라우드 모델 모두 성능과 효율성을 크게 개선
AFM 온디바이스 모델은 3B 파라미터 트랜스포머와 3억 파라미터 비전 트랜스포머로, 텍스트·이미지 입력 및 다국어·비전 기능 지원, 서버 모델은 커스텀 MoE 아키텍처 적용
모델 경량화(양자화 및 LoRA), 15개 언어 지원, 이미지 이해, 툴 사용 등 강력한 기능과 개발자 접근성을 제공함
온디바이스 모델은 비미국권 영어·이미지 이해에서 경쟁 모델보다 강점을 보였으나, 서버 모델은 GPT-4o 등 최신 모델에 비해 성능이 미흡함
최근 논란이 된 Apple 논문, Siri AI 업그레이드 지연 등 Apple의 AI 전략 전환과 iOS 생태계 내 영향력이 주목받고 있음

Apple Foundation Models(AFM) 대대적 업데이트

Apple은 온디바이스(모바일 탑재형)와 서버 호스팅형 AI 모델(AFM)을 모두 업그레이드했으며, 속도·효율·성능이 대폭 개선됨
개발자 API(Foundation Models framework) 를 새롭게 제공해, Apple Intelligence 기능이 활성화된 기기에서 온디바이스 AI 호출이 가능해짐

입력/출력: 텍스트, 이미지(최대 65,000 토큰 입력), 출력은 텍스트
아키텍처:
- AFM-on-Device: 30억 파라미터 트랜스포머, 3억 파라미터 비전 트랜스포머
- AFM-Server: 커스텀 Mixture-of-Experts(MoE) 트랜스포머(파라미터수 비공개), 10억 파라미터 비전 트랜스포머
성능: 비미국권 영어·이미지 이해에서 강점,
가용성: AFM-on-Device는 파운데이션 모델 프레임워크로 이용 가능. AFM-Server는 공개 사용 불가
15개 언어 지원, 툴 사용 등 제공
미공개 정보: 서버 모델 파라미터 수, 토큰 제한, 학습 데이터셋 상세 등은 비공개

양자화(Quantization):
- 온디바이스 모델은 대부분 가중치를 2비트, 임베딩 레이어는 4비트로 압축(양자화 인지 학습 활용)
- 서버 모델은 ASTC(그래픽스용 압축) 적용, 평균 3.56비트(임베딩 4비트)로 압축
LoRA 어댑터로 압축에 따른 성능 저하를 보완하며, 요약·교정·질의응답 등 특정 업무에 맞게 적응함
커스텀 MoE 아키텍처로 하드웨어 간 통신 오버헤드를 최소화해 효율성 향상

Apple은 최근 5가지 최신 AI 모델의 추론력 한계를 실험한 논문으로 논란을 일으켰으며, 반박 논문도 곧이어 등장함
Siri AI 업그레이드가 무기한 연기되고, 신형 iPhone에 AI 기능이 부족하다는 집단 소송도 제기됨
Google/Android 진영이 빠르게 AI 경쟁에서 앞서가는 상황에서, Apple은 Foundation Models 등으로 AI 전략을 전환 중임