구글 Bard, LLM 성능 리더보드에서 GPT-4 Turbo 바로 아래인 2위까지 상승
(twitter.com/JeffDean)- 구글 Bard (Gemini Pro) 가 GPT-4-0314/0613 등을 제치고 GPT-4 Turbo (Arena ELO 1249) 바로 아래인 아래 2위 (1215) 까지 점프
- 또한, HHEM 리더보드의 Hallucination Rate도 12% 에서 4.9%로 감소. (GPT-4/4 Turbo는 3.0%, GPT 3.5 Turbo 는 3.5%)
- 바드 + 제미니 울트라가 어떻게 출시될지 정말 기대됨
Hacker News 의견
-
구글 바드의 성능 제한: 한 사용자는 구글 바드의 성능이 비용 때문에 제한되었다고 의심해왔음. 구글은 바드를 무료로 제공하고 있으며, 영원히 모든 사용자에게 거대한 모델을 무료로 운영하고 싶지 않았을 것임. 추론 비용에 대한 혁신이 있었거나, 경쟁에 뒤처진다는 평가에 지쳐 일시적으로 비용을 감수하기로 결정했을 수도 있음. 사용자는 구글이 공개적으로 최고의 모델을 운영하는 것을 볼 수 있도록 구독 서비스를 시작해야 한다고 생각함.
Jeff Dean의 트윗에 따르면, "Gemini Pro-scale model"이라는 새로운 모델이 출시되었으며, 독립적인 lmsys 리더보드에서 2위를 차지했다고 함. "Pro-scale"이 무엇을 의미하는지, 모든 사용자가 이미 이 모델을 사용하고 있는지는 확실하지 않음.
-
바드의 초기 실망과 개선: 바드는 출시 당시 실망스러웠으나 개선되고 있음을 보는 것이 좋음. 사용자 개인적인 경험으로는 GPT 4/Turbo보다 Claude 2를 더 많이 사용하며, 그 응답 스타일과 질문에 대한 답변을 선호함. Kagi에서는 Claude 1을 GPT 4(비터보)와 동등하게 평가하며, Claude 2의 품질을 4 Turbo와 같은 수준으로 평가하고 있음을 주목할 만함.
-
바드 모델의 투표 수: 바드 모델은 상대적으로 투표 수가 적음. 다른 모델들과 투표 수가 비슷한 수준이 될 때까지 기다릴 것임.
-
바드의 적은 제한성: 바드는 GPT-4에 비해 훨씬 적게 제한되어 있으며, 이것만으로도 GPT-4보다 훨씬 낫다고 느낌.
-
무료 LLM 중에서 바드의 유용성: 모든 무료 LLM 중에서 바드가 가장 유용하다고 생각함. ChatGPT 3.5는 비교도 되지 않으며 게으름.
-
벤치마크 방법에 대한 궁금증: 벤치마크가 어떻게 수행되는지 궁금함. 사용자의 기대나 사용성을 더 잘 대표할 수 있도록 개선될 수 있을 것으로 의심함.
Jeff Dean의 트윗을 본 후 바드를 사용해봄. GPT-4에 비해 여전히 실망스러움. 질문에서 벗어나 있으면서도 그 사실을 깨닫지 못함.
차트 생성을 요청했을 때, "여기 차트가 있다"고 세 번이나 답했지만 실제 차트는 없었으며, 결국 그 기능이 없다고 말함. -
개인적인 경험과의 불일치: 개인적인 경험으로는 답이 필요할 때마다 GPT로 돌아가게 됨. 대부분의 경우 Google Bard보다 ChatGPT 3.5를 선호하며, GPT 4가 확실히 Bard보다 낫다고 느낌.
-
바드와 ChatGPT 비교: 개인적으로는 바드가 ChatGPT보다 훨씬 낫다고 생각함. 검열되지 않은 Mistral을 사용하고 싶음.
-
바드의 반응성과 검열 추가: 이전에는 요청에 반응적이었고, 거부하지 않았음. 검열 계층이 추가된 것 같음. 예전의 바드가 그립다고 느낌.