Google의 Gemma 이용 약관에 주목할 점은 사용자가 Gemma의 최신 버전을 사용하기 위해 합리적인 노력을 기울여야 한다는 조항이 있음. 이는 자체 모델을 운영할 때 모델 업데이트로 인해 신중하게 테스트한 프롬프트가 손상될 위험으로부터 보호받을 수 있는 큰 이점을 무효화할 수 있어, 특히 그 조항에 대해 만족스럽지 않음.
Gemma 7B의 벤치마크 결과가 Mistral 7B와 비슷한 수준으로 나타남. MMLU, HellaSwag, HumanEval 등의 테스트에서 Gemma 7B의 성능이 Mistral 7B와 비교해 경쟁력이 있음을 보여줌.
Gemma 모델은 몇 가지 특이점을 가지고 있음:
feedforward hidden size가 d_model의 16배로, 대부분의 모델이 4배인 것과 다름.
어휘 크기가 Mistral의 32K에 비해 10배 많은 256K임.
훈련 토큰 수가 Llama2의 2T에 비해 3배 많은 6T임.
이외에도 MQA, RoPE, RMSNorm과 같은 클래식 트랜스포머 변형을 사용함.
모델이 빠르게 훈련될 수 있었던 배치 크기가 얼마였는지에 대한 질문이 있음.
"aligment" (이데올로기적 미세조정을 의미하는 듯) 없이 모델을 제공받을 수 있는지에 대한 의문을 제기함. Gemini 모델의 답변이 이데올로기적 미세조정으로 인해 쓸모없어진 경우가 많다고 지적함.
Google의 모델에 대해 신뢰할 수 없다는 개인적인 의견. 일본의 헤이안 시대에 대한 질문에 모델이 전혀 말이 안 되는 정보를 제공했으며, 그 오류가 너무 명백해서 농담이나 패러디 같았다고 비판함. Llama 모델이 훨씬 나은 성능을 보였다고 언급
Gemma 팀이 댓글 섹션에 참여하여 질문에 답변하는 것이 칭찬할 만하다는 긍정적인 의견을 표현함.
Gemma 모델이 세계에서 가장 높은 인공 구조물과 세계에서 가장 부유한 국가, 피트당 센티미터 수에 대한 잘못된 정보를 제공함. 이러한 오류는 모델의 정확성에 의문을 제기함.
Gemma-7B 모델이 Vectara HHEM 리더보드에 등재되어 100%의 답변률과 7.5%의 환각률을 기록함. 7B 파라미터를 가진 모델로서는 상당히 좋은 성능임.
Gemma 모델의 인상적인 벤치마크에 대해 언급하며, 심지어 2B 모델도 꽤 괜찮아 보인다고 평가함. 주말을 이 모델을 탐색하는 데 할애할 것이라는 기대감을 표현
5년 전에는 OpenAI, Meta, Google 중 누가 AI에 대해 가장 개방적일 것이라고 생각하는지 물었다면 대부분 OpenAI를 선택했을 것이라고 언급함. 그러나 현재 Meta와 Google이라는 수조 달러 규모의 기업들이 상업적으로 사용할 수 있는 강력한 오픈 모델을 출시하고 있다는 점에서 역설적이라고 평가함.