젬마(Gemma) - 구글의 최첨단 오픈 모델

(blog.google)

17P by xguru 2024-02-22 | ★ favorite | 댓글 2개

구글은 모든 사람을 위한 유용한 AI를 만드는 데 믿음을 가지고 있으며, Transformers, TensorFlow, BERT, T5, JAX, AlphaFold, AlphaCode 등과 같은 오픈 커뮤니티에 혁신을 기여해왔음
Gemma는 Gemini 모델을 만드는 데 사용된 것과 동일한 연구와 기술을 바탕으로 제작된 경량의 최첨단 오픈 모델군
- 구글 DeepMind 및 다른 팀들이 개발하였으며, 라틴어로 '보석'을 의미하는 'gemma' 에서 영감을 받았음
오늘부터 전 세계적으로 사용 가능하며, 모델 가중치, 개발자 혁신을 지원하는 도구, 협업 촉진 및 Gemma 모델의 책임 있는 사용을 안내하는 도구들을 함께 제공함
Gemini와 기술 및 인프라 구성 요소를 공유하여 Gemma 2B와 7B가 다른 오픈 모델과 비교하여 크기에 비해 최고의 성능을 달성
개발자의 랩톱이나 데스크톱 컴퓨터에서 직접 실행할 수 있으며, 주요 벤치마크에서 훨씬 큰 모델들을 능가하면서도 안전하고 책임 있는 결과물을 제공하기 위한 엄격한 기준을 준수함
Native Keras 3.0을 통해 JAX, PyTorch, TensorFlow 등 모든 주요 프레임워크에 걸쳐 추론 및 SFT(감독 미세 조정)를 위한 툴체인을 제공
Colab 및 Kaggle 노트북과 Hugging Face , MaxText , NVIDIA NeMo 및 TensorRT-LLM 과 같은 인기 도구와의 통합을 통해 Gemma를 쉽게 시작할수 있음
사전 학습되고 인스트럭션 튜닝된 Gemma 모델은 Vertex AI 및 Google Kubernetes Engine (GKE) 에 쉽게 배포하여 노트북, 워크스테이션 또는 Google Cloud에서 실행할수 있음
NVIDIA GPU 및 Google Cloud TPU를 포함하여 여러 AI 하드웨어 플랫폼에 대한 최적화를 통해 업계 최고의 성능을 보장
사용 약관에 따라 규모에 관계없이 모든 조직에서 상업적 사용 및 배포를 허용

Responsible by design

Gemma는 AI 원칙을 최우선으로 설계되었으며, 훈련 세트에서 개인 정보 및 기타 민감한 데이터를 필터링하기 위해 자동화된 기술을 사용
또한, 책임 있는 행동과 일치하도록 지시 튜닝된 모델을 위해 인간 피드백에서의 강화 학습(RLHF)을 광범위하게 사용
Gemma 모델의 위험 프로필을 이해하고 줄이기 위해 수동 레드팀, 자동 적대적 테스트, 위험한 활동에 대한 모델 능력 평가 등의 강력한 평가를 수행

프레임워크, 도구 및 하드웨어 전반에 걸쳐 최적화

Gemma 모델은 특정 애플리케이션 요구 사항에 맞게 자체 데이터에 대해 미세 조정할 수 있으며, 다양한 도구 및 시스템을 지원
멀티 프레임워크 도구: Keras 3.0, 네이티브 PyTorch, JAX 및 Hugging Face Transformers등 선호하는 프레임워크 이용 가능. 레퍼런스 구현체 제공
크로스 디바이스 호환성 : 랩톱, 데스크톱, IoT, 모바일 및 클라우드를 포함한 인기 있는 디바이스에서 실행 가능
최첨단 하드웨어 플랫폼 : NVIDIA와 파트너십을 통해 데이터 센터부터 클라우드, 로컬 RTX AI PC에 이르기까지 NVIDIA GPU를 위한 최적화로 업계 최고의 성능과 최첨단 기술과의 통합을 보장
구글 클라우드에서 최적화 : Vertex AI를 사용하여 광범위한 MLOps 도구 세트와 다양한 튜닝 옵션을 제공하며, 내장된 추론 최적화를 사용한 원클릭 배포가 가능함

연구 및 개발을 위한 무료 크레딧

Gemma는 AI 혁신을 주도하는 개발자 및 연구자 커뮤니티를 위해 구축되었으며, Kaggle에서의 무료 접근, Colab 노트북의 무료 계층, 첫 번째 Google Cloud 사용자를 위한 $300 크레딧을 사용하여 오늘부터 작업을 시작할 수 있음
연구자들은 자신의 프로젝트를 가속화하기 위해 최대 $500,000의 Google Cloud 크레딧을 신청 가능

▲

dodok8 2024-02-22 [-]

이제 열린 AI만 닫혀있는 상황이네요

답변달기

▲

xguru 2024-02-22 [-]

Hacker News 의견

Google의 Gemma 이용 약관에 주목할 점은 사용자가 Gemma의 최신 버전을 사용하기 위해 합리적인 노력을 기울여야 한다는 조항이 있음. 이는 자체 모델을 운영할 때 모델 업데이트로 인해 신중하게 테스트한 프롬프트가 손상될 위험으로부터 보호받을 수 있는 큰 이점을 무효화할 수 있어, 특히 그 조항에 대해 만족스럽지 않음.
Gemma 7B의 벤치마크 결과가 Mistral 7B와 비슷한 수준으로 나타남. MMLU, HellaSwag, HumanEval 등의 테스트에서 Gemma 7B의 성능이 Mistral 7B와 비교해 경쟁력이 있음을 보여줌.
Gemma 모델은 몇 가지 특이점을 가지고 있음:
- feedforward hidden size가 d_model의 16배로, 대부분의 모델이 4배인 것과 다름.
- 어휘 크기가 Mistral의 32K에 비해 10배 많은 256K임.
- 훈련 토큰 수가 Llama2의 2T에 비해 3배 많은 6T임.
- 이외에도 MQA, RoPE, RMSNorm과 같은 클래식 트랜스포머 변형을 사용함.
- 모델이 빠르게 훈련될 수 있었던 배치 크기가 얼마였는지에 대한 질문이 있음.
"aligment" (이데올로기적 미세조정을 의미하는 듯) 없이 모델을 제공받을 수 있는지에 대한 의문을 제기함. Gemini 모델의 답변이 이데올로기적 미세조정으로 인해 쓸모없어진 경우가 많다고 지적함.
Google의 모델에 대해 신뢰할 수 없다는 개인적인 의견. 일본의 헤이안 시대에 대한 질문에 모델이 전혀 말이 안 되는 정보를 제공했으며, 그 오류가 너무 명백해서 농담이나 패러디 같았다고 비판함. Llama 모델이 훨씬 나은 성능을 보였다고 언급
Gemma 팀이 댓글 섹션에 참여하여 질문에 답변하는 것이 칭찬할 만하다는 긍정적인 의견을 표현함.
Gemma 모델이 세계에서 가장 높은 인공 구조물과 세계에서 가장 부유한 국가, 피트당 센티미터 수에 대한 잘못된 정보를 제공함. 이러한 오류는 모델의 정확성에 의문을 제기함.
Gemma-7B 모델이 Vectara HHEM 리더보드에 등재되어 100%의 답변률과 7.5%의 환각률을 기록함. 7B 파라미터를 가진 모델로서는 상당히 좋은 성능임.
Gemma 모델의 인상적인 벤치마크에 대해 언급하며, 심지어 2B 모델도 꽤 괜찮아 보인다고 평가함. 주말을 이 모델을 탐색하는 데 할애할 것이라는 기대감을 표현
5년 전에는 OpenAI, Meta, Google 중 누가 AI에 대해 가장 개방적일 것이라고 생각하는지 물었다면 대부분 OpenAI를 선택했을 것이라고 언급함. 그러나 현재 Meta와 Google이라는 수조 달러 규모의 기업들이 상업적으로 사용할 수 있는 강력한 오픈 모델을 출시하고 있다는 점에서 역설적이라고 평가함.

답변달기