- HCX Vision은 기존 거대 언어 모델(LLM)에 이미지 이해 능력을 더해 거대 시각 언어 모델(LVLM)로 발전함
- 다양한 시각 및 언어 데이터로 추가 학습하여 이미지와 텍스트를 동시에 이해할 수 있는 능력을 갖춤
- 여러 시나리오에 맞춘 데이터를 수집하여 문서 인식, 이미지 내 텍스트 이해 등 다양한 상황에서 시각과 언어 이해 작업을 수행할 수 있음
- 네이버의 OCR 기술 경험을 바탕으로 문서 처리와 글자 인식 능력을 강화하여 정확하고 신뢰성 있는 서비스를 제공함
- HCX를 기반으로 한국어 및 한국 문화 관련 지식을 보유하고 있어 한국어 문서와 이미지 내 텍스트 이해에 탁월한 성능을 발휘함
HyperCLOVA X Vision의 정량 지표
- Public Benchmarks에서 평균 71.59%의 성능으로 GPT-4V의 99.94% 수준에 도달함
- 한국 초중고 검정고시 기출 문제에서 83.8%의 정답률로 GPT-4o의 77.8%보다 높은 성능을 보임
예제 기반의 HyperCLOVA X Vision 기능들
- Detailed Image Captioning: 이미지의 세세한 부분까지 정확하게 인식하고 묘사함
- Reasoning: 이미지에 대한 상세한 이해를 바탕으로 상황을 추론하고 다음 단계를 예측함
- Entity Recognition: 인명, 장소, 제품 등 의미 있는 단위를 이미지만으로 이해함
- Chart Understanding: 차트 형태의 추상적인 수치 데이터를 이해함
- Table Understanding: 이미지 캡처본의 표 데이터를 인식하고 위치적 상관관계를 이해함
- Document Understanding: 한자, 일본어 등 다양한 언어의 문서를 이해함
- Culture and Humor (Meme Understanding): 이미지와 텍스트 쌍으로 구성된 밈을 이해함
- Equation Understanding: 렌더링된 수식을 인식하고 TeX 문법으로 변환함
- Code Generation: 특정 도형, 차트, 그래프 등을 생성하는 코드를 만들어냄
- Math Problem Solving: 도형이 포함된 수학 문제를 이해하고 풀이를 제공함
- Creative Writing (with Image Grounding): 이미지에 포함된 요소들을 기반으로 창의적인 글쓰기가 가능함
HyperCLOVA X Vision 미래 전망과 Sovereign AI
- 수백만 단위 컨텍스트 길이를 활용하여 장시간 영화 이해, 실시간 영상 처리 등이 가능해질 전망임
- 실시간 처리 기술이 동반되면 AI가 독립적 개체로 상황에 유연하게 대응 가능해짐
- LVLM도 지역이나 문화적 배경에 따른 Sovereignty가 중요해질 것임
- 네이버는 대한민국 최고 플랫폼으로 필요한 데이터를 효과적으로 확보할 수 있는 유리한 위치에 있음
글을 마치며
- 네이버의 LVLM 기술은 더욱 가까운 형태의 소통으로 발전하고 있음
- HCX Vision이 다양한 배경을 가진 사람들에게 이로운 AI가 될 수 있도록 노력하고 있음
- 앞으로 HCX Vision이 사람들의 삶 속에 녹아들기를 희망함
GN⁺의 의견
- HCX Vision은 이미지 이해 능력을 통해 인간과 더욱 자연스러운 소통이 가능해질 것으로 기대됨. 특히 시각 정보가 중요한 역할을 하는 영역에서 활용도가 높을 것임
- 검정고시 문제 풀이에서 높은 성능을 보인 것처럼, 교육 분야에서 HCX Vision이 학습 보조 도구로 활용될 수 있을 것임. 다만 학생들의 자기주도 학습 능력 저하 우려도 있음
- 데이터 확보와 Sovereignty 확보가 LVLM 개발에 중요한 요소로 작용할 것임. 네이버가 보유한 대규모 데이터와 플랫폼을 활용해 경쟁력 있는 LVLM을 개발할 수 있을 것으로 기대됨
- 현재 단일 이미지 이해 수준에서 영화, 실시간 영상 이해로 발전한다면 엔터테인먼트, 보안, 자율주행 등 다양한 분야에 적용 가능할 것임. 기술적, 윤리적 난제들에 대한 대비도 필요함
- OpenAI의 GPT-4와 비교해 유사한 성능을 보이고 있지만, 한국어와 한국 문화 이해도 측면에서는 HCX Vision이 강점을 가질 것으로 보임. 글로벌 경쟁력 확보를 위해서는 다국어 처리 능력 향상이 필요할 것임