Show GN: AI-readable 관보 - 대한민국 관보 12.8만 건을 PDF에서 마크다운 코퍼스로

(github.com/hosungseo)

16P by hosungseo2026 3달전 | ★ favorite | 댓글 2개

우리나라 관보는 이미 공개되어 있다. 공공데이터포털에서 PDF 로 받을 수 있고, 검열도 없다. 그런데 왜 연구자·기자·개발자·시민단체·공무원이 같은 관보를 매번 각자 다시 파싱하고 있을까.
대한민국 관보 약 12.8만 건(2020.01.02 ~ 2026.04.07, 1,474 날짜 그룹)을 Markdown 으로 재인덱싱하고 OCR 을 사전 기반으로 누적 보정한, 사람과 AI 가 같이 읽을 수 있는 관보 파생 코퍼스
작성자는 중앙부처 행정사무관
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/

인간을 위한 공개의 한계

"공개되어 있다" 와 "인공지능 에이전트가 쓸 수 있다" 사이의 간극은 생각보다 큼
PDF 는 조문 단위 비교가 안 되고, 기관·날짜·사건 단위 필터가 어렵고, OCR 은 깨지고, 표 구조는 훼손됨
그 결과 전처리 비용이 사용자(에이전트) 쪽에 계속 전가됨. 기자·연구자·공무원이 같은 PDF 를 각자 다시 뜯고 있음
투명성의 다음 단계는 "더 많은 공개" 가 아니라 "같은 것을 기계가 읽을 수 있게 만드는 것"

무엇이 들어 있나

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128,403개 보정 완료 마크다운
frontmatter 에 title / publisher / date / source_raw_md — 그대로 chunk → 임베딩 → RAG 로 바로 꽂을 수 있음
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — 정적 JSON 인덱스. CORS 제한 없이 외부 사이트에서 fetch 가능
라이브 리더는 빌드 툴 없이 열리는 순수 HTML (검색·히트맵·TOC·다크모드·키보드 단축키 포함)
기관 커버리지: 중앙부처 ~108,800건, 사법 ~7,700건, 교육 ~4,100건, 지자체 ~3,300건 등 약 1,600개 기관

OCR: 국산 오픈소스 위에서