# Show GN: VLM은 한국 공공기관 문서를 얼마나 잘 읽을까? KOLongDoc 벤치마크 공개

> Clean Markdown view of GeekNews topic #30171. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30171](https://news.hada.io/topic?id=30171)
- GeekNews Markdown: [https://news.hada.io/topic/30171.md](https://news.hada.io/topic/30171.md)
- Type: show
- Author: [kyujin](https://news.hada.io/@kyujin)
- Published: 2026-06-04T15:38:24+09:00
- Updated: 2026-06-04T15:38:24+09:00
- Original source: [github.com/Marker-Inc-Korea](https://github.com/Marker-Inc-Korea/KOLongDoc)
- Points: 2
- Comments: 0

## Topic Body

🔥 한국어 Long-Document VLM 벤치마크, [KOLongDoc](https://github.com/Marker-Inc-Korea/KOLongDoc)를 공개했습니다!  
  
최근 ChatGPT, Claude, Gemini 같은 멀티모달 AI가 공공·행정 업무에도 활용되기 시작했지만, 정작 "긴 한국어 문서를 얼마나 잘 이해하는가?" 를 평가할 수 있는 벤치마크는 거의 없었습니다.  
  
기존 한국어 VLM 벤치마크들은 OCR, VQA, 차트 이해, 이미지 이해 등에 초점을 맞추고 있었지만,  
  
❌ 수십 페이지에 달하는 고해상도 문서  
❌ 여러 페이지를 오가며 정보를 연결하는 Multi-hop 추론  
❌ Long-context 문서 이해  
  
를 종합적으로 평가하기에는 한계가 있었습니다.  
  
그래서 저희는 KOLongDoc 📄  벤치마크를 만들어서, 오픈소스로 공개했습니다!  
  
✅ 한국 공공기관 문서 기반  
✅ Multi-page / Multi-hop QA  
✅ 고해상도 Long Document 이해 평가  
✅ 총 200개 평가 문항 제공  
  
KOLongDoc는 국내외 VLM들이 실제 한국어 공공문서를 얼마나 정확하게 이해하고 추론할 수 있는지 평가하기 위한 벤치마크입니다.  
  
자세한 내용과 활용방법이 궁금하시다면, huggingface와 github 방문해주세요!  
  
🤗 데이터셋:  
https://huggingface.co/datasets/Markr-AI/KOLongDoc  
  
📝 Github 소개 글:  
https://github.com/Marker-Inc-Korea/KOLongDoc  
  
*피드백과 벤치마크 활용 사례를 환영합니다!

## Comments


_No public comments on this page._