한국어 능력을 평가하는 VLM 벤치마크 3가지 공개 (KO-VQA, KO-VDC, KO-OCRAG)
(github.com/Marker-Inc-Korea)최근에 VLM에 대한 관심이 높아지면서, 다양한 영역에서 VLM의 한국어 능력을 확인할 수 있는 벤치마크를 공개함.
해당 프로젝트에서는 총 3개의 벤치마크를 소개하고 있음.
- KO-VQA: 다양한 도메인의 한국어 문서 이해 능력 및 문서 기반의 답변 추론 능력에 대해 평가
- KO-VDC: 한국어 시각화 도식 자료 이해 능력 및 도식 기반의 설명문 생성/이해 능력에 대해 평가
- KO-OCRAG: 복잡한 구조의 한국어 문서 OCR 능력 및 문서에 등장하는 Visual Context parsing 능력에 대해 평가
모든 데이터셋에 대한 평가는 LLM-as-a-Judge에 의존하지 않고, 완벽한 객관식 형태로 평가가 이루어짐.
한 장의 A100 40GB or 80GB 안에서 돌릴 수 있는 다양한 오픈소스의 VLM과 closed-source인 gemini를 비교함.
- gemini가 모든 벤치마크에서 압도적인 성능을 보여줌.
- 오픈소스에서는 Qwen3가 독보이는 성능을 보여줌.
- NCSoft의 VARCO-VISION-2.0 모델도 나쁘지 않은 성능을 보여주고 있음.
- 정리하면, closed-source VLM과 open-source VLM 간의 한국어 성능에 대한 격차가 여전히 좀 크다는 것을 확인함.
- 또한, gemini가 거의 완벽한 점수를 보여서 당황하기도 함;;
자세한 데이터셋에 대한 설명은 각 readme를 참고바람.
KO-VQA README
KO-VDC README
KO-OCRAG README
⭐⭐Github star⭐⭐와 관심 및 홍보는 오픈소스 프로젝트 제작에 큰 힘이 되어줌!!
*해당 프로젝트는 markrAI의 지원을 받아서 진행함.