# Show GN: AI-readable 관보 - 대한민국 관보 12.8만 건을 PDF에서 마크다운 코퍼스로

> Clean Markdown view of GeekNews topic #28684. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28684](https://news.hada.io/topic?id=28684)
- GeekNews Markdown: [https://news.hada.io/topic/28684.md](https://news.hada.io/topic/28684.md)
- Type: show
- Author: [hosungseo2026](https://news.hada.io/@hosungseo2026)
- Published: 2026-04-19T21:01:56+09:00
- Updated: 2026-04-19T21:01:56+09:00
- Original source: [github.com/hosungseo](https://github.com/hosungseo/ai-readable-gazette-kr)
- Points: 4
- Comments: 0

## Topic Body

> 우리나라 관보는 이미 공개되어 있다. 공공데이터포털에서 PDF 로 받을 수 있고, 검열도 없다. 그런데 왜 연구자·기자·개발자·시민단체·공무원이 같은 관보를 매번 각자 다시 파싱하고 있을까.  
> 대한민국 관보 약 12.8만 건(2020.01.02 ~ 2026.04.07, 1,474 날짜 그룹)을 Markdown 으로 재인덱싱하고 OCR 을 사전 기반으로 누적 보정한, 사람과 AI 가 같이 읽을 수 있는 관보 파생 코퍼스  
> 작성자는 중앙부처 행정사무관  
> Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/  
  
---  
  
**인간을 위한 공개의 한계**  
  
- "공개되어 있다" 와 "인공지능 에이전트가 쓸 수 있다" 사이의 간극은 생각보다 큼  
- PDF 는 조문 단위 비교가 안 되고, 기관·날짜·사건 단위 필터가 어렵고, OCR 은 깨지고, 표 구조는 훼손됨  
- 그 결과 전처리 비용이 사용자(에이전트) 쪽에 계속 전가됨. 기자·연구자·공무원이 같은 PDF 를 각자 다시 뜯고 있음  
- 투명성의 다음 단계는 "더 많은 공개" 가 아니라 "같은 것을 기계가 읽을 수 있게 만드는 것"  
  
**무엇이 들어 있나**  
  
- `derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md` — 128,403개 보정 완료 마크다운  
- frontmatter 에 `title / publisher / date / source_raw_md` — 그대로 chunk → 임베딩 → RAG 로 바로 꽂을 수 있음  
- `docs/data/meta.json`, `dates/YYYY-MM-DD.json`, `titles.json` — 정적 JSON 인덱스. CORS 제한 없이 외부 사이트에서 fetch 가능  
- 라이브 리더는 빌드 툴 없이 열리는 순수 HTML (검색·히트맵·TOC·다크모드·키보드 단축키 포함)  
- 기관 커버리지: 중앙부처 ~108,800건, 사법 ~7,700건, 교육 ~4,100건, 지자체 ~3,300건 등 약 1,600개 기관  
  
**OCR: 국산 오픈소스 위에서**  
  
- PDF 텍스트 추출 OCR 은 한글과컴퓨터의 오픈소스 도구인 오픈데이터로더(opendataloader) 를 사용  
- 다른 툴 대신 이걸 선택한 건 의도적. 관보라는 공공 데이터를 다루는 작업이니, 도구도 국산 오픈소스 위에서 돌아가는 게 맞다고 봤음  
- 오픈데이터로더 자체가 발전하면 깨진 글자도 줄어들 것이고, 보정 사전도 자연스럽게 더 가벼워짐  
- 도구가 좋아지면 코퍼스도 같이 좋아지는 구조  
  
**PDF 위에 한 층 더**  
  
- PDF 로 공개하는 건 위변조 방지 측면에서 정당한 선택. 원본이 PDF 인 것 자체는 문제가 아님  
- 해법은 "PDF 공개를 없애자" 가 아니라 "PDF 는 원본으로 두고, 그 위에 AI-readable 파생 레이어를 하나 더 올리자"  
- 이 저장소는 원문을 지우거나 갈아엎지 않음. 원본 PDF 는 그대로, 위에 파생 읽기 코퍼스만 쌓는 2단 구조

## Comments


_No public comments on this page._