Show GN: AI-readable 관보 - 대한민국 관보 12.8만 건을 PDF에서 마크다운 코퍼스로
(github.com/hosungseo)우리나라 관보는 이미 공개되어 있다. 공공데이터포털에서 PDF 로 받을 수 있고, 검열도 없다. 그런데 왜 연구자·기자·개발자·시민단체·공무원이 같은 관보를 매번 각자 다시 파싱하고 있을까.
대한민국 관보 약 12.8만 건(2020.01.02 ~ 2026.04.07, 1,474 날짜 그룹)을 Markdown 으로 재인덱싱하고 OCR 을 사전 기반으로 누적 보정한, 사람과 AI 가 같이 읽을 수 있는 관보 파생 코퍼스
작성자는 중앙부처 행정사무관
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/
인간을 위한 공개의 한계
- "공개되어 있다" 와 "인공지능 에이전트가 쓸 수 있다" 사이의 간극은 생각보다 큼
- PDF 는 조문 단위 비교가 안 되고, 기관·날짜·사건 단위 필터가 어렵고, OCR 은 깨지고, 표 구조는 훼손됨
- 그 결과 전처리 비용이 사용자(에이전트) 쪽에 계속 전가됨. 기자·연구자·공무원이 같은 PDF 를 각자 다시 뜯고 있음
- 투명성의 다음 단계는 "더 많은 공개" 가 아니라 "같은 것을 기계가 읽을 수 있게 만드는 것"
무엇이 들어 있나
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128,403개 보정 완료 마크다운- frontmatter 에
title / publisher / date / source_raw_md— 그대로 chunk → 임베딩 → RAG 로 바로 꽂을 수 있음 docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— 정적 JSON 인덱스. CORS 제한 없이 외부 사이트에서 fetch 가능- 라이브 리더는 빌드 툴 없이 열리는 순수 HTML (검색·히트맵·TOC·다크모드·키보드 단축키 포함)
- 기관 커버리지: 중앙부처 ~108,800건, 사법 ~7,700건, 교육 ~4,100건, 지자체 ~3,300건 등 약 1,600개 기관
OCR: 국산 오픈소스 위에서
- PDF 텍스트 추출 OCR 은 한글과컴퓨터의 오픈소스 도구인 오픈데이터로더(opendataloader) 를 사용
- 다른 툴 대신 이걸 선택한 건 의도적. 관보라는 공공 데이터를 다루는 작업이니, 도구도 국산 오픈소스 위에서 돌아가는 게 맞다고 봤음
- 오픈데이터로더 자체가 발전하면 깨진 글자도 줄어들 것이고, 보정 사전도 자연스럽게 더 가벼워짐
- 도구가 좋아지면 코퍼스도 같이 좋아지는 구조
PDF 위에 한 층 더
- PDF 로 공개하는 건 위변조 방지 측면에서 정당한 선택. 원본이 PDF 인 것 자체는 문제가 아님
- 해법은 "PDF 공개를 없애자" 가 아니라 "PDF 는 원본으로 두고, 그 위에 AI-readable 파생 레이어를 하나 더 올리자"
- 이 저장소는 원문을 지우거나 갈아엎지 않음. 원본 PDF 는 그대로, 위에 파생 읽기 코퍼스만 쌓는 2단 구조