GN⁺: 애플의 새로운 온디바이스 및 서버 기반 파운데이션 모델 소개
(machinelearning.apple.com)- 2024년 WWDC에서 iOS 18, iPadOS 18, macOS Sequoia에 깊이 통합된 퍼스널 인텔리전스 시스템인 Apple Intelligence를 발표함
- Apple Intelligence는 사용자의 일상 작업에 특화된 다수의 생성 모델로 구성되며, 현재 활동에 맞게 즉각 적응 가능함
- 내장된 파운데이션 모델은 문서 작성/개선, 알림 요약/우선순위화, 대화용 재미있는 이미지 생성, 앱 간 상호작용 간소화 등의 사용자 경험을 위해 파인튜닝됨
- 2개의 모델 - 약 30억 개 파라미터의 온디바이스 언어 모델, Private Cloud Compute를 통해 제공되는 더 큰 서버 기반 언어 모델 - 이 효율적이고 정확하며 책임감 있게 특화 작업을 수행하도록 구축/적용됨
- 이들은 Xcode에 인텔리전스를 구축하기 위한 코딩 모델, Messages 앱에서 시각적 표현을 돕는 디퓨전 모델 등을 포함한 더 큰 애플 제작 생성 모델군의 일부임
책임감 있는 AI 개발에 초점 맞춤
- Apple Intelligence는 모든 단계에서 핵심 가치에 맞게 설계되고 획기적인 프라이버시 혁신을 기반으로 구축됨
- 애플은 AI 툴과 툴의 기반이 되는 모델 개발 방식을 안내하는 책임감 있는 AI 원칙을 수립함:
- 지적인 툴로 사용자에게 힘을 실어줌
- 사용자를 대표함
- 신중하게 설계함
- 프라이버시 보호
- 이 원칙은 Apple Intelligence를 가능케 하는 아키텍처 전반에 반영되어 있음
Pre-Training
- 파운데이션 모델은 2023년에 오픈소스로 공개한 애플의 AXLearn 프레임워크로 훈련됨
- JAX와 XLA 위에 구축되어 다양한 하드웨어와 클라우드 플랫폼에서 효율적이고 확장성 있는 훈련이 가능함
- 데이터, 모델, 시퀀스 길이 등 다양한 차원으로 훈련 스케일링이 가능한 병렬화 기술 조합 사용
- 라이선스 데이터와 공개 데이터로 모델 훈련. 웹 퍼블리셔는 데이터 사용 제어로 Apple Intelligence 훈련에서 웹 컨텐츠 사용 옵트아웃 가능
- 사용자의 개인 데이터나 상호작용은 절대 사용하지 않음. PII 제거 필터링, 저품질 컨텐츠 필터링, 고품질 문서 식별을 위한 모델 기반 분류기 적용
Post-Training
- 데이터 품질이 모델 성공에 필수적임을 확인하여, 하이브리드 데이터 전략 활용
- 교사 위원회를 통한 거부 샘플링 파인튜닝 알고리즘과 미러 디센트 정책 최적화 및 leave-one-out 이점 추정기를 사용하는 RLHF 알고리즘 개발
- 이 두 알고리즘으로 모델의 지시 따르기 품질 상당히 개선됨
Optimization
- 고성능 생성 모델 개발 외에도 온디바이스 및 프라이빗 클라우드에서 속도와 효율성을 최적화하기 위해 다양한 혁신적 기술 적용
- 온디바이스 모델과 서버 모델 모두 그룹화된 쿼리 어텐션 사용
- 메모리 요구 사항과 추론 비용 절감을 위해 공유 입력 및 출력 어휘 임베딩 테이블 사용
- 온디바이스 모델은 49K 어휘 크기 사용, 서버 모델은 추가 언어 및 기술 토큰을 포함하여 100K 어휘 크기 사용
- 온디바이스 추론을 위해 저비트 팔레타이제이션 사용 - 압축되지 않은 모델과 동일한 정확도를 얻기 위해 혼합 2비트 및 4비트 구성 전략(평균 3.5비트 가중치당)을 통합하는 새로운 LoRA 어댑터 프레임워크 개발
- Talaria 도구를 사용하여 각 작업에 대한 비트율 선택을 더 잘 안내함
- 활성화 및 임베딩 양자화 활용, 효율적인 KV 캐시 업데이트 방식 개발
- 이 최적화 세트로 iPhone 15 Pro에서 프롬프트 토큰당 약 0.6ms의 time-to-first-token 지연시간과 초당 30 토큰의 생성 속도 달성
Model Adaptation
- 파운데이션 모델은 사용자의 일상 활동을 위해 파인튜닝되며, 수행 중인 작업에 맞게 동적으로 자체 전문화 가능
- 특정 작업을 위해 모델을 파인튜닝하기 위해 사전 훈련된 모델의 다양한 계층에 연결할 수 있는 작은 신경망 모듈인 어댑터 활용
- 어댑터 계층만 파인튜닝하여 기본 사전 훈련 모델의 원래 매개변수는 변경되지 않고 일반 지식은 보존되면서 특정 작업 지원을 위해 어댑터 계층이 맞춤 설정됨
Performance and Evaluation
- 사용자가 애플 제품 전반에 걸쳐 커뮤니케이션하고 작업하며 자신을 표현하고 일을 처리할 수 있게 해주는 생성 모델 제공에 초점을 맞춤
- 모델 벤치마킹 시 사용자 경험과 상관관계가 높은 것으로 나타난 인간 평가에 초점을 맞춤
- 기능별 어댑터와 파운데이션 모델 모두에 대해 성능 평가 수행
요약 어댑터 평가 사례:
- 이메일 및 알림 요약에 대한 제품 요구 사항이 미묘하지만 중요한 방식으로 다르기 때문에, 이러한 특정 요구 사항을 충족하기 위해 LoRA 어댑터를 팔레타이징된 모델 위에 파인튜닝함
- 훈련 데이터는 고품질 요약만 유지하는 거부 샘플링 전략으로 필터링된 더 큰 서버 모델에서 생성된 합성 요약을 기반으로 함
- 사용 사례별로 신중하게 샘플링된 750개 응답 세트를 사용하여 제품별 요약 평가
- 평가 데이터 세트는 제품 기능이 프로덕션에서 직면할 가능성이 높은 다양한 입력을 강조하며, 다양한 콘텐츠 유형과 길이의 단일 및 적층 문서의 계층화된 혼합을 포함
- 제품 기능으로서 실제 사용 사례를 대표하는 데이터 세트에 대해 성능을 평가하는 것이 중요함
- 어댑터가 있는 모델이 비교 가능한 모델보다 더 나은 요약을 생성한다는 것을 발견
Human Satisfaction Score on Summarization Feature Benchmark
- 데이터 표에 따르면 애플 온디바이스+어댑터 모델이 이메일과 알림 요약에서 Phi-3-mini 모델보다 더 높은 만족 좋음 비율과 더 낮은 만족 나쁨 비율을 보임. 어댑터가 있는 모델이 더 나은 요약을 생성함.
- 애플의 온디바이스 및 서버 모델은 다양한 난이도의 실제 프롬프트로 구성된 종합 평가 세트를 사용해 일반적인 기능을 평가함. 이를 비슷한 크기의 오픈소스 및 상용 모델과 비교한 결과:
- 온디바이스 모델(~30억 매개변수)이 Phi-3-mini, Mistral-7B, Gemma-7B 등 더 큰 모델보다 우수한 성능을 보임
- 서버 모델은 DBRX-Instruct, Mixtral-8x22B, GPT-3.5-Turbo와 견줄만하면서도 매우 효율적임
- 유해 콘텐츠, 민감한 주제, 사실성 측면에서 모델 성능을 테스트하기 위해 다양한 적대적 프롬프트 세트를 사용함. 온디바이스 및 서버 모델 모두 적대적 프롬프트에 직면했을 때 견고하며 오픈소스 및 상용 모델보다 낮은 위반율을 달성함.
- IFEval 벤치마크를 사용해 비슷한 크기의 모델과 지시 따르기 능력을 비교한 결과, 애플 온디바이스 및 서버 모델이 동급 오픈소스 및 상용 모델보다 자세한 지침을 더 잘 따르는 것으로 나타남.
- 다양한 작문 지침으로 구성된 내부 요약 및 작문 벤치마크에서 모델의 작문 능력도 평가함.
Writing Benchmarks
- 데이터 표에 따르면 요약과 작문에서 애플 온디바이스 및 서버 모델이 비교 대상 모델들과 견줄만한 좋은 성능을 보임.
결론
- WWDC24에서 소개된 애플 파운데이션 모델과 어댑터는 iPhone, iPad, Mac에 깊이 통합되어 언어, 이미지, 동작, 개인 컨텍스트에 걸쳐 강력한 기능을 제공하는 새로운 퍼스널 인텔리전스 시스템인 Apple Intelligence의 기반이 됨
- 애플 제품 전반에 걸쳐 사용자가 일상 활동을 수행하는 데 도움을 주기 위한 목적으로 만들어졌으며, 모든 단계에서 책임감 있게 개발되었고 애플의 핵심 가치에 의해 이끌어짐
- 언어, 디퓨전, 코딩 모델을 포함한 더 광범위한 생성 모델 제품군에 대한 정보를 곧 공유할 예정
Hacker News 의견
-
Adapter 활용: 사전 학습된 모델에 다양한 레이어에 플러그인할 수 있는 작은 신경망 모듈인 어댑터를 사용하여 특정 작업에 맞게 모델을 미세 조정함. 이는 앱 개발자가 각 하드웨어 모델에 최적화된 모델을 사용할 수 있게 해줌.
-
기대감: 아직 서드 파티 훈련 지원에 대한 발표는 없지만, 계획 중일 것이라 기대함. 로컬+프라이빗 ML의 어려움은 앱마다 큰 용량의 가중치를 필요로 하지 않도록 하는 것임.
-
애플의 기회: 애플이 각 칩에 맞게 최적화된 모델을 제공하고, 새로운 사용 사례에 대해 몇 MB의 가중치만 필요로 하는 어댑터를 제공할 수 있는 기회가 있음. 이는 모델의 앱 슬리밍과 유사함.
-
개발자 경험: 기본 모델이 최신 상태가 아니더라도 개발자 경험이 훌륭하고 반복 가능함. 서버 측은 훨씬 쉬우며, 로컬+프라이빗이 많은 사용 사례를 차지할 것으로 기대함.
-
어댑터의 역할: 어댑터를 사용하여 모델을 특정 작업에 맞게 미세 조정하고, 메모리를 효율적으로 관리하며 운영 체제의 응답성을 보장함. 어댑터 매개변수는 16비트로 표현되며, 약 3억 개의 매개변수를 가진 모델의 경우 10MB 정도의 메모리가 필요함.
-
Loras와 유사: 이 접근 방식이 Loras와 유사하게 들림.
-
비교 차트: 기사 중간에 다른 관련 모델과의 비교 차트가 포함되어 있음. 서버 측 모델은 GPT-3.5보다 좋고, GPT-4보다는 나쁨. 그러나 "출력 유해성의 인간 평가" 차트가 특히 흥미로움.
-
모델의 신중함: GPT를 "레벨 3"으로 만들고, OpenAI의 모델을 사용하여 "이것은 ChatGPT가 말한 것"임을 명확히 하는 방식으로 모델을 더 신중하게 만듦.
-
서버 모델 사용 기대: 이 두 페이지의 내용이 매우 훌륭하며, 애플 스택에 최적화된 클라우드를 구축하기 위해 서버 모델을 사용해 보고 싶음.
-
메모리 증가 기대: 애플이 모든 맥의 기본 메모리를 8GB 이상으로 높일 것이라 기대함. 16GB M4가 기본이 되길 바라지만, 애플은 12GB를 제공하고 16GB 옵션에 추가 비용을 부과할 가능성이 있음.
-
데이터 프라이버시: 애플이 제3자 서비스에 무엇을 전달하는지 명확히 하고, 사용자가 원할 경우 옵트아웃할 수 있는 기능을 제공해야 함. 기기에서 추론을 실행하는 것과 데이터를 OpenAI의 API를 통해 보내는 것은 다름.
-
도메인 이름 선호: machinelearning.apple.com을 사용하는 것이 마음에 듦.
-
최적화 결과: 3.5B 가중치를 품질 손실 없이 사용하는 것은 최첨단 최적화 결과임.
-
출력 유해성 평가: Mistral-7B가 작은 모델 중에서 거짓 긍정 거부를 최소화하는 데 가장 우수함을 확인함.
-
배터리 수명 영향: 이러한 모델이 배터리 수명에 어떤 영향을 미치는지 궁금함. iPhone 15 Pro에서 PrivateLLM 앱을 사용해 본 결과, 몇 분 사용 후 배터리 충전이 급격히 감소함.