• 1세대 멀티모달 모델인 그록-1.5V는 이제 강력한 텍스트 기능 외에도 문서, 다이어그램, 차트, 스크린샷 및 사진을 포함한 광범위한 시각 정보를 처리할 수 있습니다.
• Grok-1.5V는 다학제 추론, 이해 문서, 과학 다이어그램, 차트, 스크린샷, 사진 등 다양한 영역에서 기존 멀티모달 모델을 능가하며 물리적 세계를 이해하는 데 탁월한 능력을 보여준다.
• 질문과 쉽게 검증할 수 있는 답변을 가진 700개 이상의 이미지로 구성된 멀티모달 모델의 기본적인 실제 공간 이해 기능을 평가하기 위해 새로운 벤치마크인 RealWorldQA를 소개한다.
• Grok-1.5V는 조기 테스터와 기존 Grok 사용자가 곧 사용할 수 있으며 이미지, 오디오 및 비디오와 같은 다양한 양식에 걸쳐 멀티모달 기능을 적극적으로 확장하고 있습니다.