1P by GN⁺ 9시간전 | ★ favorite | 댓글 1개
  • 1990년부터 2025년까지의 CIA 월드 팩트북 데이터를 구조화해 검색·분석할 수 있는 오픈소스 정보 아카이브
  • 281개 국가·지역, 36개 연도판, 100만 개 이상의 데이터 필드를 포함
  • 연도별 국가 프로필, 시계열 데이터, 전문 검색, 지리·통신·무역 네트워크 분석 기능 제공
  • COCOM 지역 기반 대시보드, 국가 간 지표 비교, 글로벌 트렌드 시각화 등 분석 도구 포함
  • 공개 도메인 자료를 기반으로 하며, CIA나 미 정부와는 무관한 독립 프로젝트

개요

  • 36년간의 지정학적 정보를 보존하고 구조화한 데이터 아카이브
    • 원본 CIA 월드 팩트북에서 파싱된 자료를 기반으로 함
    • 281개 엔터티, 36개 판본, 9,500개의 국가-연도 기록, 1,061,341개의 데이터 필드 포함
  • 모든 데이터는 검색 가능하며, 연도별로 국가 보고서 변화를 추적할 수 있음

플랫폼 구성

  • Factbook Archive / Reference Library
    • 1990~2025년 모든 판본을 열람 가능
    • 원문 필드 데이터를 그대로 표시하고, 연도별 변화를 검색 가능
  • Intelligence Analysis / Analytic Workspace
    • DoD 전투사령부(COCOM) 지역별로 구성된 분석 워크스페이스
    • 색상 지도(Choropleth), 시계열 비교, 국가별 분석서(ICD 203 형식), 지표 간 비교 기능 제공

주요 기능

  • Library: 모든 엔터티를 유형별로 분류, 국기 포함
  • Country Profile: 각 국가의 전체 필드 데이터 열람
  • Full-Text Search: 100만 개 이상의 필드에서 Z39.58 문법으로 키워드 검색
  • Field Time Series: 특정 데이터 필드의 36년간 추이 추적
  • Factbook Quiz: 4가지 모드의 세계 지식 퀴즈 제공
  • Factbook Export: 모든 필드를 포함한 인쇄용 국가 보고서 생성

인텔리전스 분석 도구

  • Regional Dashboard: COCOM 지역 및 수도 표시가 포함된 세계 지도
  • Timeline Map: 36년간의 데이터를 애니메이션 형태로 시각화
  • Communications Analysis: 인터넷·모바일·브로드밴드 보급률 지표 표시
  • Map Compare: 두 연도의 지도를 동기화해 비교
  • COCOM Region Detail: 지역별 주요 지표(KPI) 표시
  • Intelligence Dossier: ICD 203 기준의 국가별 분석서
  • Global Rankings: 지표별 국가 순위 정렬
  • Global Trends: 모든 판본에 걸친 세계적 지표 추세
  • Compare Countries: 국가 간 지표 비교
  • Field Explorer: 모든 데이터 필드와 커버리지 통계 탐색
  • Change Detection: 연도별 필드 변화 탐지
  • Dissolved States: 더 이상 존재하지 않는 국가·지역 정보
  • Trade Networks: 무역 관계 네트워크 그래프
  • Organization Networks: 국제기구 회원 관계 그래프
  • Query Builder: 사용자 정의 분석 쿼리 생성
  • Text Diff: 연도별 텍스트 비교 및 변경 사항 하이라이트

프로젝트 정보

  • 모든 데이터는 미국 정부의 공개 도메인 자료(CIA World Factbook) 에서 수집
  • CIA나 미 정부와는 관련 없음
  • 분석은 ICD 203 분석 표준을 따름
  • GitHub 저장소를 통해 소스 및 방법론 공개
Hacker News 의견들
  • 현재 행정부가 CIA World Factbook의 내부 데이터를 모두 삭제해, 미래에 복원 시도를 막으려 한 것 같음
    다음 행정부가 이 보관된 데이터를 활용해 다시 구축한다면 정말 멋질 것 같음
  • 이런 게 바로 Show HN이 작동해야 하는 방식임
    누군가 프로젝트를 올리면 커뮤니티가 실시간으로 버그를 찾고, 제작자가 바로 수정함
    FIPS와 ISO 국가 코드 충돌 문제는 이런 희귀한 버그를 다수의 눈으로만 잡을 수 있다는 좋은 예시임
    제작자가 방어적이지 않고 피드백에 적극적으로 대응한 점이 인상적임
  • Factbook의 JSON이나 Markdown 파일이 필요한 사람을 위한 GitHub 저장소가 있음
    “CIA.gov의 원본 형식(1:1)으로 된 국가 프로필 데이터셋 캐시”라고 설명되어 있음
    세부 데이터는 cache.factbook.json에서 확인 가능함
    • 링크 고마움! 내 GitHub과 웹사이트도 이 소스를 사용 중임
      다만 1990~2025년 데이터를 SQL 데이터베이스로 만들어 쿼리 가능하게 하는 게 필요하다고 생각했음
  • 작성자에게: 데이터베이스의 필드나 버그(예: 국가 코드)를 수정 중이라면, 그 버전도 공유해줄 수 있을지 궁금함
    이 데이터셋은 GraphRAG 기능 테스트에 아주 적합함
    실제 데이터를 기반으로 한 세계 시뮬레이션 게임도 만들 수 있을 것 같음
    • 물론 가능함! 모든 데이터 수정 내역은 .txt 변경 로그로 관리 중임
      CIA가 공개한 원본 내용은 그대로 유지되고, 파싱 과정에서 포맷팅 노이즈만 정리함
      추가로 FIPS 10-4 코드와 ISO Alpha-2/3, 그리고 MasterCountryID를 매핑하는 조회 테이블을 만들어 서로 연결 가능하게 했음
      이 자료들도 GitHub에 추가할 예정임
  • 멋진 프로젝트임. 하지만 한 가지 문제 발견함
    2002년 Factbook에서 “Germany” 항목을 클릭하면 매번 “Gambia” 페이지로 이동함
    다른 나라에서는 이런 현상을 보지 못했음
    • 또 다른 예시로, “Nicaragua”를 검색하면 “Niger” 페이지로 연결됨
  • 2025–2026 버전은 이미 외부에서 구매 및 열람 가능하고, 2026–2027판은 4월 7일 출시 예정임
    Amazon 링크
    • 이런 책이 실제로 출판된다는 걸 몰랐음. 알려줘서 고마움
    • Internet Archive가 2025–2026판을 보유 중이라, 스캔 후 OpenLibrary에 추가될 예정임
    • 출시되면 내 프로젝트에도 추가할 예정임. 정보 공유 감사함
  • 이 링크가 정말 놀라움: 변경 내역 분석 페이지
  • 멋진 프로젝트임. 하지만 세계 인구 수가 두 배로 계산된 것 같음
    트렌드 분석 페이지에서 확인 가능함
    • 원인을 찾음. “World” 엔티티(약 80억 명)가 개별 국가들과 함께 합산되어 총합이 두 배로 계산되고 있었음
      제보 감사함!
    • 바로 수정 중임. 너무 오래 봐서 이런 걸 놓쳤던 것 같음. 알려줘서 고마움
  • 이 프로젝트는 현재 백악관 행정부에 의해 종료된 서비스를 보존한 아카이브임?
    • 맞음, 정확히 그 서비스임
  • 시계열 차트에 버그가 있음. 데이터를 시각화하기 전에 정규화(normalization) 가 필요함
    예시: 인도 고정형 브로드밴드 구독 데이터
    • 문제를 찾음. 총합을 파싱하는 정규식(regex) 이 단위 접미사(million/billion 등)를 처리하지 못했음
      예를 들어 “18.17 million”이 18.17로만 인식되어 그래프가 급락하는 오류가 있었음
      단위 처리를 추가해 버그를 수정했고, 방금 배포 완료함
      제보해줘서 고마움