4P by neo 12시간전 | ★ favorite | 댓글 2개
  • 런던의 모든 레스토랑 데이터를 스크래핑하고 머신러닝 모델을 구축해 Google Maps의 알고리듬이 도시 내 소상공인 생존에 미치는 구조적 영향을 분석한 프로젝트
  • 구글 지도 랭킹은 단순한 목록이 아니라 관련성, 거리, prominence(저명도) 신호를 통해 수요를 적극적으로 조직하는 '시장 조성자' 역할 수행
  • 리뷰량·속도·브랜드 인지도·웹 언급에 의해 누적적으로 강화되는 구조를 보여 초기 노출 → 수요 증가 → 리뷰 증가 → 추가 노출의 순환이 발생
  • 이런 구조는 체인점과 중심지 식당을 유리하게 만들고, 새로운 독립 식당은 리뷰 부족으로 인해 발견조차 어려운 ‘콜드스타트 문제’ 에 직면함
  • 이를 구분하기 위해 식당의 구조적 조건만으로 예상 평점(카운터팩추얼) 을 예측하는 ML 모델을 구축하고, 실제 평점과의 차이를 잔차(residual) 로 계산해 알고리즘이 과대·과소 평가한 식당을 식별함
  • 더 나아가 지역 단위로 식당을 집계해 레스토랑 허브의 구조적 강도를 PCA·클러스터링으로 분석하며, 플랫폼이 도시의 음식 생태계를 어떻게 재편하는지 보여줌

Google Maps는 디렉터리가 아닌 시장 조성자(Market Maker)

  • Google Maps가 "사람들이 좋아하는 것"을 수동적으로 반영한다는 공식 서사와 달리, 실제로는 relevance(관련성), distance(거리), prominence(저명도) 라는 핵심 신호를 통해 수요를 조직화함
  • relevance는 검색어와 비즈니스 메타데이터 간 텍스트 매칭으로 추론, distance는 순수 공간적 요소
  • prominence는 리뷰 수, 리뷰 속도, 평균 평점, 브랜드 인지도, 웹 가시성 등으로 산출되며 정치경제적 영향력이 시작되는 지점
    • 사람들이 장소를 얼마나 자주 상호작용하고, 언급하고, 이미 인지하는지가 반영됨
  • 즉, 구글 지도는 수요를 ‘반영’하는 것이 아니라 랭킹 알고리듬으로 수요를 조직하는 시장 조성자(market maker)

누적 우위 구조와 매튜 효과

  • 순위 목록에서의 가시성이 방문객을 결정하고, 방문객이 리뷰 축적 속도를 결정하며, 이 리뷰가 다시 prominence 신호에 반영되는 누적 우위(cumulative advantage)
  • 금융 시장에서 자본이 복리로 증식하는 방식과 유사하며, Robert Merton의 매튜 효과(Matthew Effect) 가 케밥 가게에 적용된 형태
    • "있는 자에게 더 주어지리라"는 원리
  • 체인점은 교차 지점 브랜드 인지도 덕분에 유리하고, 고유동 지역의 업소는 동일한 품질에서도 더 빠르게 리뷰를 축적해 prominence 순위 상승
  • 신규 독립 업소는 cold-start 문제 직면: 리뷰 없이는 발견되기 어렵고, 발견되지 않으면 리뷰 축적도 어려움
  • 중립적 소비자 선택처럼 보이는 것이 실제로는 알고리듬이 매개한 시장 설계로 이해되어야 함

시장 조성자로서의 플랫폼

  • 경제학에서 시장 조성자(market maker)는 수요·공급을 단순 반영하는 것이 아니라 유동성, 매칭, 가격 발견을 적극 형성하는 중개자
  • Google Maps 같은 플랫폼은 가격이 아닌 가시성을 통제함으로써 지역 서비스에 유사한 기능 수행
  • 디지털 경제학 용어로 순위 알고리듬은 attention allocator(주목 배분자) 역할을 하며, 수요를 특정 업체로 유도하고 다른 업체에서는 멀어지게 함

머신러닝으로 구축한 반사실적(counterfactual) 도시

  • Google Maps가 도시 수요의 시장 조성자라면, 그 증폭 레이어 없이 도시가 어떻게 보일지를 파악하는 것이 핵심 질문
  • 레스토랑의 내재적 성과와 플랫폼 가시성 효과를 분리하기 위해 머신러닝 모델 구축
  • HistGradientBoostingRegressor(scikit-learn의 gradient-boosted decision tree) 사용
    • 크고 지저분한 혼합형 테이블 데이터에 적합하며, 수동 지정 없이 상호작용 효과 포착 가능
  • 모델 특성(features):
    • 리뷰 수(주목의 체감 효과를 반영해 log 변환)
    • 음식 종류, 체인/독립 여부, 가격대, 업종(레스토랑/카페/테이크아웃/바)
    • 공간 그리드를 통한 도시 내 위치

음식 종류 분류 모델 별도 구축

  • Google Maps의 음식 종류 분류가 부정확하고 불일치하는 문제 발견
    • 상당수가 "restaurant", "cafe", "meal takeaway" 등 모호하게 라벨링됨
  • 레스토랑 이름, 메뉴 언어, 리뷰 텍스트로 음식 종류를 예측하는 별도 분류 모델 구축
  • 대시보드의 음식 종류 필터는 Google 태그가 아닌 머신러닝 결과
  • 음식 종류 오분류 시 다양성, 클러스터링, 고거리 경쟁 관계 분석이 왜곡됨

평점 잔차(rating residual)로 알고리듬 저평가 측정

  • 모든 특성은 표준 전처리 파이프라인(결측치 보정, 인코딩 등) 통과
  • 모델은 플랫폼에서 관찰 가능한 특성과 평점 간 매핑만 학습
  • 각 레스토랑에 대해 반사실적 기대 평점(counterfactual expected rating) 생성
  • 실제 평점과 예측 평점의 차이가 rating residual(평점 잔차)
    • 양의 잔차: 플랫폼 기준선보다 실질적으로 우수한 성과
    • 음의 잔차: 알고리듬이 보통 보상하는 것 대비 저조한 성과
  • 음식 품질의 완벽한 척도는 아니나, 알고리듬 저평가(algorithmic mispricing) 측정에 강력한 지표
    • 사회적·요리적 가치가 플랫폼이 구조적으로 증폭하는 것과 괴리되는 지점 포착

유료 광고 가시성의 한계

  • 일부 레스토랑은 promoted pins나 로컬 검색 광고 비용 지불
  • 유료 가시성은 공개되지 않아 추정 불가
    • 플랫폼 영향력이 얼마나 불투명해졌는지를 보여주는 징후
  • 평점 잔차가 관찰 불가능한 광고 지출을 일부 반영할 가능성 있음

London Food Dashboard 소개

  • 분석 결과를 요약한 London food dashboard 구축
  • 현재 기능: 이름 검색, 저평가된 맛집(머신러닝 알고리듬 식별) 필터, 음식 종류, 자치구, 가격대, 최소 평점, 리뷰 수 필터
  • 베타 버전이지만 런던의 알고리듬 식품 경제를 들여다보는 현미경 역할
  • 접속 주소: laurenleek.eu/food-map
  • "underrated gems" 필터가 머신러닝 잔차 활용 예시
    • 더 크고 어두운 버블은 알고리듬이 저평가한 장소 표시

개별 레스토랑에서 알고리듬 이웃으로

  • 레스토랑은 단독으로 실패하지 않고 생태계 내에서 실패
  • 플랫폼 동학이 개별 레스토랑에서 전체 동네 식품 생태계로 확장될 때 발생하는 현상 분석을 위해 두 번째 모델링 레이어 추가
  • 레스토랑을 작은 공간 셀(지도의 육각형 - 정사각형보다 edge effect에 유리)로 집계
  • 각 지역의 요약 특성 계산: 레스토랑 밀도, 평균 평점, 평균 잔차, 총 리뷰 수, 체인 비율, cuisine entropy, 가격대
  • 특성을 표준화하고 PCA(주성분 분석) 실행해 전체 "레스토랑 생태계 강도"를 하나의 연속 hub score로 압축
  • 동일 특성 공간에 K-means 클러스터링 적용해 지역을 4가지 구조 유형으로 분류:
    • elite, strong, everyday, weak 허브

허브 분석 결과

  • 패턴은 익숙해 보임: 런던 중심부가 지배적
  • 중요한 것은 허브의 위치가 아니라 허브의 유형
  • 원시 평점이 아닌 전체 hub score로 런던에서 가장 구조적으로 강력한 5개 레스토랑 허브 식별
    • 밀도, 알고리듬 주목, 독립 업소 생존, 소비자 구매력이 모두 정렬된 장소
    • 지도에 라벨 표시됨
  • 동네 갈등 촉발 방지를 위해 산문에서 순위를 명시적으로 나열하지 않음

음식 종류 밀도와 런던의 요리 다양성

  • 음식 종류 밀도 패널을 허브 분석에 오버레이하면 더 선명한 결과 도출
  • 런던의 요리 다양성은 플랫폼 경제 전반에 균등 분포되지 않음
  • 이민자 음식은 알고리듬 가시성이 구조적으로 약한 도시 지역에 강하게 군집
  • Italian, Indian, Turkish, Chinese, Thai, British, Japanese, French, American, fish-and-chips 각각 고유한 정착 역사, 노동 네트워크, 소매 형식, 자본·임대료와의 관계 반영
  • 일부 음식은 길고 연속된 회랑 형성, 다른 음식은 특정 상가나 소득 계층에 연결된 단속적 클러스터로 나타남
  • 요리 다양성은 단순 취향이 아님: 가족이 어디 정착했는지, 어떤 상가가 2세대가 사업을 열 만큼 오래 저렴했는지, 요리 생태계가 성숙하기 전 이주가 발생한 도시 부분이 어디인지와 연결

정책적 시사점

  • 이 프로젝트는 검색 문제로 시작해 더 큰 문제로 귀결
  • 가장 중요한 결과는 어느 동네가 순위 1위인지가 아니라, 플랫폼이 이제 일상적 도시 시장에서 생존을 조용히 구조화한다는 인식
  • 런던 레스토랑 씬은 더 이상 취향만으로 조직되지 않음
    • 복리로 증가하는 가시성, 발견이 도래하면 오르는 임대료, 소비자가 도착하기 훨씬 전에 주목을 배분하는 알고리듬으로 조직
  • "선택"처럼 보이는 것이 점점 순위 시스템의 하류 효과가 됨

알고리듬 투명성과 감사 필요성

  • 발견이 이제 소상공인 생존을 형성한다면, 경쟁, 공정성, 도시 재생은 더 이상 플랫폼 순위 시스템을 무시할 수 없음
  • 지자체가 거리를 재건하고 면허를 자유화해도 알고리듬 비가시성이 장소를 경제적으로 고립시킬 수 있음
  • 플랫폼 투명성과 감사 가능성은 더 이상 틈새 기술 논쟁이 아니라 조용히 지역경제 정책의 도구가 되고 있음
  • 최소한 이 정도의 경제적 결과를 갖는 순위 알고리듬은 감사 가능해야 함
    • 금융 시장을 감사하듯 주목 시장(attention market) 도 감사(Audit)해야 함
  • 내비게이션 앱으로서 Google Maps가 가진 권력의 크기를 주목해야 함

여기에 적극적인 업주들의 리뷰 개입까지 이어져서 큰 비효율을 만들어 내고 있다고 생각합니다. 어려운 문제네요. 예전엔 믿고 가는 구글맵 리뷰였는데, 이제는 디스커버리 영역은 완전히 망가진거 같아요.

네이버 지도는 매우 신뢰할 수 없게 되었고, 카카오 맵은 약간이나마 괜찮더라고요. 그마저도 댓글 알바가 있어서 이런 영역은 메이저 한 서비스일수록 신뢰도가 떨어지네요.