# Grok-1.5 Vision Preview: 고급 시각 처리 기능을 갖춘 최초의 멀티모달 모델 소개

> Clean Markdown view of GeekNews topic #14309. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14309](https://news.hada.io/topic?id=14309)
- GeekNews Markdown: [https://news.hada.io/topic/14309.md](https://news.hada.io/topic/14309.md)
- Type: news
- Author: [brainer](https://news.hada.io/@brainer)
- Published: 2024-04-14T00:51:31+09:00
- Updated: 2024-04-14T00:51:31+09:00
- Original source: [x.ai](https://x.ai/blog/grok-1.5v)
- Points: 5
- Comments: 0

## Topic Body

• 1세대 멀티모달 모델인 그록-1.5V는 이제 강력한 텍스트 기능 외에도 문서, 다이어그램, 차트, 스크린샷 및 사진을 포함한 광범위한 시각 정보를 처리할 수 있습니다.  
  
• Grok-1.5V는 다학제 추론, 이해 문서, 과학 다이어그램, 차트, 스크린샷, 사진 등 다양한 영역에서 기존 멀티모달 모델을 능가하며 물리적 세계를 이해하는 데 탁월한 능력을 보여준다.  
  
• 질문과 쉽게 검증할 수 있는 답변을 가진 700개 이상의 이미지로 구성된 멀티모달 모델의 기본적인 실제 공간 이해 기능을 평가하기 위해 새로운 벤치마크인 RealWorldQA를 소개한다.  
  
• Grok-1.5V는 조기 테스터와 기존 Grok 사용자가 곧 사용할 수 있으며 이미지, 오디오 및 비디오와 같은 다양한 양식에 걸쳐 멀티모달 기능을 적극적으로 확장하고 있습니다.

## Comments



_No public comments on this page._
