애플의 새로운 온디바이스 및 서버 기반 파운데이션 모델 소개

(machinelearning.apple.com)

4P by GN⁺ 2024-06-11 | ★ favorite | 댓글 1개

2024년 WWDC에서 iOS 18, iPadOS 18, macOS Sequoia에 깊이 통합된 퍼스널 인텔리전스 시스템인 Apple Intelligence를 발표함
Apple Intelligence는 사용자의 일상 작업에 특화된 다수의 생성 모델로 구성되며, 현재 활동에 맞게 즉각 적응 가능함
내장된 파운데이션 모델은 문서 작성/개선, 알림 요약/우선순위화, 대화용 재미있는 이미지 생성, 앱 간 상호작용 간소화 등의 사용자 경험을 위해 파인튜닝됨
2개의 모델 - 약 30억 개 파라미터의 온디바이스 언어 모델, Private Cloud Compute를 통해 제공되는 더 큰 서버 기반 언어 모델 - 이 효율적이고 정확하며 책임감 있게 특화 작업을 수행하도록 구축/적용됨
이들은 Xcode에 인텔리전스를 구축하기 위한 코딩 모델, Messages 앱에서 시각적 표현을 돕는 디퓨전 모델 등을 포함한 더 큰 애플 제작 생성 모델군의 일부임

책임감 있는 AI 개발에 초점 맞춤

Apple Intelligence는 모든 단계에서 핵심 가치에 맞게 설계되고 획기적인 프라이버시 혁신을 기반으로 구축됨
애플은 AI 툴과 툴의 기반이 되는 모델 개발 방식을 안내하는 책임감 있는 AI 원칙을 수립함:
1. 지적인 툴로 사용자에게 힘을 실어줌
2. 사용자를 대표함
3. 신중하게 설계함
4. 프라이버시 보호
이 원칙은 Apple Intelligence를 가능케 하는 아키텍처 전반에 반영되어 있음

Pre-Training

파운데이션 모델은 2023년에 오픈소스로 공개한 애플의 AXLearn 프레임워크로 훈련됨
JAX와 XLA 위에 구축되어 다양한 하드웨어와 클라우드 플랫폼에서 효율적이고 확장성 있는 훈련이 가능함
데이터, 모델, 시퀀스 길이 등 다양한 차원으로 훈련 스케일링이 가능한 병렬화 기술 조합 사용
라이선스 데이터와 공개 데이터로 모델 훈련. 웹 퍼블리셔는 데이터 사용 제어로 Apple Intelligence 훈련에서 웹 컨텐츠 사용 옵트아웃 가능
사용자의 개인 데이터나 상호작용은 절대 사용하지 않음. PII 제거 필터링, 저품질 컨텐츠 필터링, 고품질 문서 식별을 위한 모델 기반 분류기 적용

Post-Training

데이터 품질이 모델 성공에 필수적임을 확인하여, 하이브리드 데이터 전략 활용
교사 위원회를 통한 거부 샘플링 파인튜닝 알고리즘과 미러 디센트 정책 최적화 및 leave-one-out 이점 추정기를 사용하는 RLHF 알고리즘 개발
이 두 알고리즘으로 모델의 지시 따르기 품질 상당히 개선됨

Optimization

고성능 생성 모델 개발 외에도 온디바이스 및 프라이빗 클라우드에서 속도와 효율성을 최적화하기 위해 다양한 혁신적 기술 적용
온디바이스 모델과 서버 모델 모두 그룹화된 쿼리 어텐션 사용
메모리 요구 사항과 추론 비용 절감을 위해 공유 입력 및 출력 어휘 임베딩 테이블 사용
온디바이스 모델은 49K 어휘 크기 사용, 서버 모델은 추가 언어 및 기술 토큰을 포함하여 100K 어휘 크기 사용
온디바이스 추론을 위해 저비트 팔레타이제이션 사용 - 압축되지 않은 모델과 동일한 정확도를 얻기 위해 혼합 2비트 및 4비트 구성 전략(평균 3.5비트 가중치당)을 통합하는 새로운 LoRA 어댑터 프레임워크 개발
Talaria 도구를 사용하여 각 작업에 대한 비트율 선택을 더 잘 안내함
활성화 및 임베딩 양자화 활용, 효율적인 KV 캐시 업데이트 방식 개발
이 최적화 세트로 iPhone 15 Pro에서 프롬프트 토큰당 약 0.6ms의 time-to-first-token 지연시간과 초당 30 토큰의 생성 속도 달성

Model Adaptation

파운데이션 모델은 사용자의 일상 활동을 위해 파인튜닝되며, 수행 중인 작업에 맞게 동적으로 자체 전문화 가능
특정 작업을 위해 모델을 파인튜닝하기 위해 사전 훈련된 모델의 다양한 계층에 연결할 수 있는 작은 신경망 모듈인 어댑터 활용
어댑터 계층만 파인튜닝하여 기본 사전 훈련 모델의 원래 매개변수는 변경되지 않고 일반 지식은 보존되면서 특정 작업 지원을 위해 어댑터 계층이 맞춤 설정됨

Performance and Evaluation

사용자가 애플 제품 전반에 걸쳐 커뮤니케이션하고 작업하며 자신을 표현하고 일을 처리할 수 있게 해주는 생성 모델 제공에 초점을 맞춤
모델 벤치마킹 시 사용자 경험과 상관관계가 높은 것으로 나타난 인간 평가에 초점을 맞춤
기능별 어댑터와 파운데이션 모델 모두에 대해 성능 평가 수행

요약 어댑터 평가 사례:

이메일 및 알림 요약에 대한 제품 요구 사항이 미묘하지만 중요한 방식으로 다르기 때문에, 이러한 특정 요구 사항을 충족하기 위해 LoRA 어댑터를 팔레타이징된 모델 위에 파인튜닝함
훈련 데이터는 고품질 요약만 유지하는 거부 샘플링 전략으로 필터링된 더 큰 서버 모델에서 생성된 합성 요약을 기반으로 함
사용 사례별로 신중하게 샘플링된 750개 응답 세트를 사용하여 제품별 요약 평가
평가 데이터 세트는 제품 기능이 프로덕션에서 직면할 가능성이 높은 다양한 입력을 강조하며, 다양한 콘텐츠 유형과 길이의 단일 및 적층 문서의 계층화된 혼합을 포함
제품 기능으로서 실제 사용 사례를 대표하는 데이터 세트에 대해 성능을 평가하는 것이 중요함
어댑터가 있는 모델이 비교 가능한 모델보다 더 나은 요약을 생성한다는 것을 발견

Human Satisfaction Score on Summarization Feature Benchmark

데이터 표에 따르면 애플 온디바이스+어댑터 모델이 이메일과 알림 요약에서 Phi-3-mini 모델보다 더 높은 만족 좋음 비율과 더 낮은 만족 나쁨 비율을 보임. 어댑터가 있는 모델이 더 나은 요약을 생성함.
애플의 온디바이스 및 서버 모델은 다양한 난이도의 실제 프롬프트로 구성된 종합 평가 세트를 사용해 일반적인 기능을 평가함. 이를 비슷한 크기의 오픈소스 및 상용 모델과 비교한 결과:
- 온디바이스 모델(~30억 매개변수)이 Phi-3-mini, Mistral-7B, Gemma-7B 등 더 큰 모델보다 우수한 성능을 보임
- 서버 모델은 DBRX-Instruct, Mixtral-8x22B, GPT-3.5-Turbo와 견줄만하면서도 매우 효율적임
유해 콘텐츠, 민감한 주제, 사실성 측면에서 모델 성능을 테스트하기 위해 다양한 적대적 프롬프트 세트를 사용함. 온디바이스 및 서버 모델 모두 적대적 프롬프트에 직면했을 때 견고하며 오픈소스 및 상용 모델보다 낮은 위반율을 달성함.
IFEval 벤치마크를 사용해 비슷한 크기의 모델과 지시 따르기 능력을 비교한 결과, 애플 온디바이스 및 서버 모델이 동급 오픈소스 및 상용 모델보다 자세한 지침을 더 잘 따르는 것으로 나타남.
다양한 작문 지침으로 구성된 내부 요약 및 작문 벤치마크에서 모델의 작문 능력도 평가함.

Writing Benchmarks

데이터 표에 따르면 요약과 작문에서 애플 온디바이스 및 서버 모델이 비교 대상 모델들과 견줄만한 좋은 성능을 보임.

결론

WWDC24에서 소개된 애플 파운데이션 모델과 어댑터는 iPhone, iPad, Mac에 깊이 통합되어 언어, 이미지, 동작, 개인 컨텍스트에 걸쳐 강력한 기능을 제공하는 새로운 퍼스널 인텔리전스 시스템인 Apple Intelligence의 기반이 됨
애플 제품 전반에 걸쳐 사용자가 일상 활동을 수행하는 데 도움을 주기 위한 목적으로 만들어졌으며, 모든 단계에서 책임감 있게 개발되었고 애플의 핵심 가치에 의해 이끌어짐
언어, 디퓨전, 코딩 모델을 포함한 더 광범위한 생성 모델 제품군에 대한 정보를 곧 공유할 예정

▲

GN⁺ 2024-06-11 [-]

Hacker News 의견

Adapter 활용: 사전 학습된 모델에 다양한 레이어에 플러그인할 수 있는 작은 신경망 모듈인 어댑터를 사용하여 특정 작업에 맞게 모델을 미세 조정함. 이는 앱 개발자가 각 하드웨어 모델에 최적화된 모델을 사용할 수 있게 해줌.
기대감: 아직 서드 파티 훈련 지원에 대한 발표는 없지만, 계획 중일 것이라 기대함. 로컬+프라이빗 ML의 어려움은 앱마다 큰 용량의 가중치를 필요로 하지 않도록 하는 것임.
애플의 기회: 애플이 각 칩에 맞게 최적화된 모델을 제공하고, 새로운 사용 사례에 대해 몇 MB의 가중치만 필요로 하는 어댑터를 제공할 수 있는 기회가 있음. 이는 모델의 앱 슬리밍과 유사함.
개발자 경험: 기본 모델이 최신 상태가 아니더라도 개발자 경험이 훌륭하고 반복 가능함. 서버 측은 훨씬 쉬우며, 로컬+프라이빗이 많은 사용 사례를 차지할 것으로 기대함.
어댑터의 역할: 어댑터를 사용하여 모델을 특정 작업에 맞게 미세 조정하고, 메모리를 효율적으로 관리하며 운영 체제의 응답성을 보장함. 어댑터 매개변수는 16비트로 표현되며, 약 3억 개의 매개변수를 가진 모델의 경우 10MB 정도의 메모리가 필요함.
Loras와 유사: 이 접근 방식이 Loras와 유사하게 들림.
비교 차트: 기사 중간에 다른 관련 모델과의 비교 차트가 포함되어 있음. 서버 측 모델은 GPT-3.5보다 좋고, GPT-4보다는 나쁨. 그러나 "출력 유해성의 인간 평가" 차트가 특히 흥미로움.
모델의 신중함: GPT를 "레벨 3"으로 만들고, OpenAI의 모델을 사용하여 "이것은 ChatGPT가 말한 것"임을 명확히 하는 방식으로 모델을 더 신중하게 만듦.
서버 모델 사용 기대: 이 두 페이지의 내용이 매우 훌륭하며, 애플 스택에 최적화된 클라우드를 구축하기 위해 서버 모델을 사용해 보고 싶음.
메모리 증가 기대: 애플이 모든 맥의 기본 메모리를 8GB 이상으로 높일 것이라 기대함. 16GB M4가 기본이 되길 바라지만, 애플은 12GB를 제공하고 16GB 옵션에 추가 비용을 부과할 가능성이 있음.
데이터 프라이버시: 애플이 제3자 서비스에 무엇을 전달하는지 명확히 하고, 사용자가 원할 경우 옵트아웃할 수 있는 기능을 제공해야 함. 기기에서 추론을 실행하는 것과 데이터를 OpenAI의 API를 통해 보내는 것은 다름.
도메인 이름 선호: machinelearning.apple.com을 사용하는 것이 마음에 듦.
최적화 결과: 3.5B 가중치를 품질 손실 없이 사용하는 것은 최첨단 최적화 결과임.
출력 유해성 평가: Mistral-7B가 작은 모델 중에서 거짓 긍정 거부를 최소화하는 데 가장 우수함을 확인함.
배터리 수명 영향: 이러한 모델이 배터리 수명에 어떤 영향을 미치는지 궁금함. iPhone 15 Pro에서 PrivateLLM 앱을 사용해 본 결과, 몇 분 사용 후 배터리 충전이 급격히 감소함.

답변달기