6P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • 머신러닝 알고리듬을 활용해 몽골 전역의 Yurt(게르) 수를 직접 세기 위한 프로젝트를 진행
  • 단일 인공위성 이미지를 바탕으로 유르트를 식별하도록 YOLO 모델을 훈련하고, 대규모 데이터 라벨링을 자동화
  • 분산 서버, Docker Swarm, FastAPI 등을 이용해 120여 개 워커가 병렬적으로 이미지 타일을 처리하고 결과를 집계
  • 최종적으로 17만 2,689개의 유르트를 발견했으며, 이 결과는 몽골 도시 성장과 주거 인프라 문제를 이해하는 데 기여
  • 몽골의 게르 지구와 그 사회적 배경 및 발전 과제에 대한 통찰도 함께 제공

몽골 유르트를 머신러닝으로 세기 – 프로젝트 개요

몽골 현대 사회에 대한 궁금증

  • 몽골 제국의 역사와 현대 몽골의 모습을 이해하기 위해 데이터를 분석하는 대신 Google 지도 위성 보기를 적극적으로 탐색함
  • 울란바토르 위성사진에서 수 킬로미터에 이르는 방대한 유르트 집단을 확인하고, 이 유르트가 정확히 몇 개나 되는지 직접 세어보기로 결심함

데이터와 라벨링 준비

  • Google Maps에서 울란바토르 인근을 중심으로 타일 형태(256x256 px)의 위성 이미지를 자동으로 수집함
  • 타일을 Label Studio로 불러와 유르트를 일일이 바운딩 박스로 수작업 라벨링하며, 이 과정을 통해 주석 데이터(annotated data) 를 생성함
  • 객체 검출용 알고리듬으로 YOLO11(ultralytics) 을 채택, annotated 데이터셋을 모델 학습에 활용함

모델 훈련 및 데이터셋 확장

  • YOLO11 기반으로 모델을 학습시키는 것 외에, 라벨링-재학습-라벨링의 반복적 피드백 루프 방식으로 자동화 수준을 높임
  • 초기에 데이터가 부족해 정확도가 낮았으나, 반복적 추가 라벨링과 샘플 수 확대로 검출률을 끌어올림
  • 모델 훈련은 노트북 대신 vast.ai GPU 리소스를 임대해 Docker 컨테이너 환경에서 대규모로 수행함. 훈련 완료 시 S3 저장소로 모델 결과 및 메타데이터 자동 업로드

전국 단위 탐색 시스템 구축

탐색 범위 최적화

  • 몽골 전체 면적 기준으로 각 줌 레벨별 타일 수 산출
    • 인구밀도가 낮아 비거주 지역을 제외하기 위해 overpass turbo로 사람 거주지가 있을 만한 포인트를 추출
    • 추출 포인트 주변(2km 버퍼)을 기준으로 실제 검사할 타일 집합을 대폭 축소

대규모 분산 처리

  • Docker Swarm을 활용, 8대의 서버(총 128 vCPU)로 클러스터 구성
  • API 서버(FastAPI)와 워커로 역할 분리:
    • API: 워커에 할당할 검색 영역과 타일 집합을 관리, 진행 상황 및 상태 관리
    • 워커: API에서 검색 영역을 받아 해당 타일의 유르트를 모델로 검출해 API에 결과 등록

결과 집계

  • 전체 약 270,000여 검색 영역, 수백만 이미지를 병렬 처리
  • 최종적으로 17만 2,689개 유르트를 확률 40% 이상 검출 결과 기준으로 확인함
  • 데이터셋을 공개하여 토지 이용, 호텔, 소규모 광산 인근 유르트 분포 등 분석

유르트와 몽골의 사회적 맥락

게르(유르트) 지역의 역사와 변화

  • 유르트는 역사적으로 몽골 유목민의 전통적 주거 형태였으나, 도시화와 산업화 과정에서 다방면으로 쓰임새가 변화함
  • 20세기 초에는 임시 학교 등 공공 목적에도 유르트가 활용되었으며, 대도시로의 인구 유입과 함께 울란바토르 등지에 게르 지구가 생성됨

"1979년 인구조사에서 전체 인구의 51%가 도시 거주로, 1970년대 급속한 도시화 반영. 주택 및 인프라 부족으로 도시 외곽에 게르 지구가 확장됨."

도시화와 인프라 도전 과제

  • 농촌에서 유입된 인구가 유르트를 갖고 도시로 이주, 공식 인프라가 갖춰지지 않은 상태에서 거주시설로 사용
  • 2002년 토지 소유권 관련 법 도입으로 게르 지구 거주민의 정착지 법적 공식화가 진행됨
  • 정부는 울란바토르 2020 마스터플랜 등 재개발 정책을 추진하고 있으나, 실제 진행 속도는 더딘 편임

"게르 지구 토지 소유자가 건설업자에게 토지를 매각 또는 교환해 신규 아파트 건설이 이루어지나, 아파트 가치가 종종 토지보다 낮거나, 개발 속도가 느림"

시사점 및 향후 전망

  • 게르 지구의 공식화 및 인프라 제공이 여전히 사회적, 정책적 과제임을 시사
  • 몽골 정부의 장기 목표는 게르 지구에 주택, 수도, 전기 등 도시 인프라 보급
  • 데이터 기반 정책 수립 및 지속적 추적이 필요함

추가 탐구 질문

  • 몽골 및 타국에서 도시화·산업화가 발생하는 주요 요인
  • 몽골인 중 도시에 정착하는 사람과 남는 사람의 차이
  • 게르 지구 개발의 정부 측 애로 사항
  • 국가별 개발 속도의 차이를 낳는 배경

참고 문헌

  • 주요 정책·사회학·인프라 관련 논문, 보고서 및 데이터베이스 참고
    • “Distributional Effects of Ger Area Redevelopment in Ulaanbaatar, Mongolia.”
    • Ulaanbaatar 2020 Master Plan and Development Approach for 2030.
    • “Educational Import: Local Encounters with Global Forces in Mongolia.”
    • Mongolia: A Country Study. Federal Research Division, Library of Congress.
    • Poverty Mapping in Mongolia with AI-Based Ger Detection Reveals Urban Slums Persist after the COVID-19 Pandemic. arXiv.

마무리

  • 기술과 데이터로 사회 문제를 들여다보고, 사회적 배경과 거주 패턴에 대한 새로운 시각을 제시함
  • 다양한 기법과 오픈소스 도구(머신러닝, Docker, FastAPI 등) 조합의 실제적 응용 사례임
Hacker News 의견
  • 도시에서 게르/유르트 지구 이야기가 나오면 유목 생활과 게르 문화의 문화적 중요성을 과소평가해서는 안 된다는 생각임. 최근 기후 변화(사막화)와 경제적 이유로 많은 사람이 본의 아니게 유목 생활을 포기하고 울란바토르 같은 도시 근처로 이주하는데, 대개 임시적이라고 생각하며 마지못해 도시로 오는 경우가 많음. 주택 부족 문제뿐 아니라 유목을 완전히 포기했다는 상징이 돼서 아파트 등 영구 구조물로 아예 이사하는 걸 꺼리는 심리도 큼. 그래서 영구 건물 옆에 게르를 세우기도 하고, 친척 집 마당에 더하거나 문화적 정체성을 지키는 방편으로 확장해서 사용하는 모습도 자주 볼 수 있음. 이런 사례는 첫 사진들에서 확인 가능함

    • 몇 년 전 오토바이로 몽골을 횡단하며 놀란 점이 있었는데, 좋은 영구 주택에 살아도 뒷마당에 반드시 게르가 있었음. 외부인 입장에선 두 번째 집이 필요하냐고 의아해했는데, 현지인에게 물으니 이상하다는 눈빛을 받음. 게르는 그냥 문화에 깊이 박혀있고, 일종의 위신 상징이면서 손님 접대, 야외 생활, 다방면으로 활용하는 공간임

    • 우즈베키스탄의 히바라는 궁전에서 본 경험을 말하고 싶은데, 분명히 출입구와 화려한 방이 많은 전통 궁전이었음에도 벽으로 완전히 둘러싸인 어느 안쪽 마당 한 켠에 둥근 자리, 즉 게르를 세우는 자리가 따로 있었음. 이 지역 칸들도 칭기즈 칸의 혈통을 자랑하는데, 도심 내에 살아도 영구 천장 아래서 밤을 보내는 건 칸답지 않다는 인식이 있었고, 방문하는 친척들도 그런 모습은 환영하지 않는 분위기였음
      Toshhovli Palace 위키
      [수용 마당의 둥근 자리 사진](https://en.wikipedia.org/wiki/Toshhovli_Palace/…)

    • 몽골은 최근 몇 번의 혹독한 겨울 때문에 초원에서 대규모 이동이 벌어져 가축 떼가 크게 줄어든 상태라 대다수가 도시로 몰리는 중임. 원한다 해도 영구 건물에 들어갈 자리가 부족한 실정임

    • 듣기로는 이미 게르를 하나쯤 갖고 있을 거고, 필요할 때 이사도 상대적으로 쉽다고 추정함. 예를 들어 특별한 행사가 있으면 다시 시골 집으로 돌아간다는 이야기도 들은 적 있음

    • 게르 생활이 꼭 공공 정책 실패 탓이란 시각보다는, 그저 문화적 선택이라는 해석에 더 동의함. 과거 칭기즈 칸도 게르에 살았고, 실제로 어떤 사람은 필요에 의해서, 또 다른 사람은 스스로의 의사로 게르 생활을 선택함. 따라서 그런 모습 자체가 결코 부정적이라고 단정하긴 어려움

  • 울란바토르에는 표준화된 게르가 있음. 대규모 시장에서 부품이나 완제품 게르를 쉽게 구입 가능함. 2017년 기준으로 하나에 약 1,000달러였음. 그 돈이면 제대로 단열된, 쉽게 옮길 수 있는 작은 집을 구할 수 있고, 몽골에서는 도심 밖에서 어디든 정착할 수 있음(단, 2,000마리 양과 함께라면 목초지 사용은 현지와 논의하는 게 좋음). 결국 게르 선택은 전통과 문화뿐 아니라, 그 상황에서 합리적인 결정이기도 함

    • 참고로, 예의상 터키식 주택 텐트를 유르트라고 부르고, 몽골식은 게르라고 부름. 프랑스에서는 샤바두, 캐나다에서는 플럼버스, 미국에서는 플립이라고 부르기도 한다고 농담 삼아 언급함. 내 샤바두를 보고 현지인이 게르라 부르면 조금 신경 쓰인다는 우스갯소리 덧붙임

    • 게르를 놓기 위한 어떤 형태의 기초 공사를 하는지 궁금함

  • 몽골에 머신러닝을 적용한 유르트가 0개라는 언급이 있었음

    • 그럴 리 없다는 생각으로 오히려 꽤 있을 거라 추정함

    • 처음에 유르트를 직업이나 사람의 유형이라고 생각해서, 제목을 잘못 이해함

    • 고마움 전하고, 덕분에 웃긴 경험이었다고 언급함

    • 비원어민으로서 더 올바른 문장은 뭘까 고민함. "머신러닝으로 몽골의 모든 유르트를 세어봤다"는 식의 문장도 언급함

  • 오픈스트리트맵(OSM)에 이미 윤곽선이 표시된 89,259개의 유르트를 입력에 활용하지 않은 점이 아깝게 느껴짐. 다만 윤곽선을 구글맵 이미지와 정렬하는 데 문제 있었을 것임
    OSM 몽골 게르 태그 통계
    모델이 타일 경계에 있는 유르트는 잘 못 잡았을 듯 추정함. 그리고 인구 3백만에 비해 숫자가 훨씬 적어 의외라는 느낌 듦

    • "3백만 명에 비해 게르 숫자가 적다"는 부분에 대해, 실제 집계 결과가 172,700개라면 각각 가족 거주용으로 추정하고 한 게르당 인원이 4명(아마 실제로는 더 많음)을 적용하면 약 69만 명으로 몽골 인구 350만 중 20%임. 꽤 그럴듯한 수치로 보임

    • 링크 클릭 전 대략 추정해본 수치도 공유함. 몽골 인구 3백만 중 수도에 150만 거주. 100만 명 정도가 도심 외부 거주라 가정하고, 4명당 한 게르라면 25만 개. 거기에 손님용, 창고용, 주택 마당 등 부차적 용도를 고려하면 30만 개쯤 추산하는데, ML 앱 결과보다 거의 두 배 수준임

    • 이런 식으로 OSM 등을 라벨로 쓰자는 아이디어는 지리/머신러닝 프로젝트에서 자주 거론됨. 하지만, OSM은 구글맵 이미지를 채택하지 못하게 라이선스가 막혀 있어서 연구 목적이라 해도 이미지 수급이나 재공유 등에 법적 문제가 많음. 구글이 다양한 외부 이미지 소스에서 서브라이선스 받아 IP를 엄격하게 관리함. 이미지/라벨 정렬 문제도 크고, 라벨링 자체가 이미지가 아닌 GPS 좌표일 수도 있음. 게다가 게르처럼 이동식 구조물은 라벨 완성도나 정합성이 떨어질 수밖에 없음. OSM의 완전성도 지역 커뮤니티의 활동성에 크게 좌우됨. 그래도 자체 라벨과 예측값 교차검증에는 활용할 수 있음. 타일 단위 탐지 시에는 경계 예측을 보통 버리고, 오버랩 윈도우 및 NMS 등으로 중복 처리함

    • 17만2천여 개라면 아직도 엄청 많은 숫자이고, 인구 대비 게르 수가 세계 어디보다 월등하다는 점을 강조함

  • 구글맵 위성 이미지를 직접 다운로드하는 건 이용약관상 금지됨을 강조하고 싶음. 실제로 차단되기 쉬운데, 몽골 전체 타일을 다 받았다는 사실에 놀람

    • 시장 독점 외에는 이런 정책의 이유를 이해하지 못하겠다는 반응임

    • 차단당하면 새 계정 만들면 된다는 의견도 있음

  • 결과가 흥미로워서, 실제로 오탐지 비율이 얼마였는지 궁금함. 저장 탱크나 사일로, 야외 수영장이 게르로 잘못 분류됐는지도 묻고 싶음

  • 대학 시절 접했던 Geo/ML 프로젝트 이야기라 오랜만에 보는 즐거움이 컸음. 호주 정부도 유사 작업에 매년 큰 돈 들여 투입하지만, 글 쓴 사람의 결과와 비교하면 우리 정부가 훨씬 비효율적으로 보인다는 아쉬움 있음. 땅 하나 제대로 분류 못하고, 작은 게르 모양 오브젝트 카운트조차 제대로 못 하는 현 실태에 답답함 느낌

    • 비슷한 경험이 있는 지역 개발자/즉흥예술가가 있다는 말 하려 했는데, 작성자의 닉네임 보고 놀랐다는 반응
  • "총 172,689개 게르를 40% 초과 정확도 예측 점수로 탐지"라는 결과에서 'prediction score' 해석 방법 궁금함

    • 객체 탐지기는 탐지된 경계 상자마다 신뢰도 점수를 주는데, 점수가 높을수록 모델이 해당 박스가 맞다고 판단함. 보통 이런 응용에서 유저가 임계치를 정하고, 그 기점 이상은 정탐지로, 미만은 버리는 방식임. 임계치는 임의이거나 약간의 원칙 따라 설정 가능함
  • 처음에는 몽골의 모든 유르트가 머신러닝을 '사용'한다는 뜻으로 제목을 오해함

  • 반상업 솔루션(교육 용도 무료)을 사용했다고 하며, 딥러닝 모델의 토폴로지/아키텍처가 궁금함. 더 나은 접근법이 있는지도 호기심 있음