2P by GN⁺ 4일전 | ★ favorite | 댓글 2개
  • 이 사이트는 Fediverse(Mastodon, Pixelfed 등)와 Atmosphere(Bluesky, WhiteWind 등)에서 사용자 데이터가 얼마나 집중되어 있는지를 측정함
  • Herfindahl–Hirschman Index(HHI)Shannon Index를 활용해 서버 간 사용자 분산 정도를 분석함
  • HHI는 경제학에서 경쟁도를 측정하는 지표로, 값이 낮을수록 분산이 크고, 높을수록 독점적 집중을 의미함
  • Shannon Index는 엔트로피 기반 다양성 지표로, 값이 높을수록 서버 간 인구가 고르게 분포되어 있음을 뜻함
  • 이 프로젝트는 데이터 집중도 외에도 네트워크 구조, 법적 관할, 사회적 권력 집중 등 다양한 탈중앙화 측정 요소를 고려하며, GitHub에 데이터와 코드 공개

소개 및 주요 개념

  • FediverseAtmosphere 플랫폼에서 사용자 데이터가 얼마나 집중되어 있는지를 Herfindahl–Hirschman Index(HHI) 를 활용해 측정함
  • HHI는 경제학적으로 경쟁 정도를 평가하는 대표 지표로, 각 서버(혹은 PDS)가 차지하는 사용자 비율의 제곱을 모두 합산해 산출함
  • HHI 값이 0에 가까울수록 사용자들이 여러 서버에 고르게 분포되어 있음을 의미하고, 10,000에 가까울수록 대부분 사용자가 한 서버에 집중된 독점 상태임을 시사함
  • 보통 HHI 100 미만이면 "아주 경쟁적", 1,500 미만이면 "비집중적", 2,500 이상이면 "고집중"으로 간주함

측정 방법과 데이터의 정의

  • 측정 대상은 Fediverse의 서버(인스턴스) 와 Atmosphere의 PDS(개인 데이터 서버)
  • 사용자가 여러 인스턴스에 분산된 Mastodon 등 플랫폼은 같은 운영사 소유 인스턴스를 하나로 합산함
    • 예: mastodon.social과 mastodon.online은 같은 회사가 운영하므로 합쳐서 통계 처리함
    • Bluesky Social PBC가 관리하는 모든 PDS도 하나로 집계함
  • 이로써 한 실체가 통제하는 사용자 규모가 정확히 반영됨

중앙화 측정의 다양한 시각

  • 사용자 데이터의 물리적 분포 외에도 여러 측면에서 탈중앙화 여부를 분석할 수 있음
    • 네트워크 구조적 측면(예: P2P, 릴레이 등)
    • 신원 관리 방법
    • 실제 인프라의 소유 및 위치(지역, 관할권 등)
    • 사회적·조직적 권력 집중(플랫폼 내 영향력 집중 현상 등)
  • 플랫폼 내 데이터 분포만이 아니라, 권한과 영향력의 분산 여부도 중시해야 함

프로젝트 참여와 오픈소스

  • 측정에 활용된 전체 코드와 데이터 세트는 GitHub 저장소 에 공개됨
  • 기여, 코멘트, 새로운 측정 지표 제안 및 resiliency(복원력) 지표 추가를 환영함

'우리는 아직 탈중앙화되었는가?' 라는 말도 굳이 틀린 말은 아니지만 부자연스럽고 어색하죠.
'아직'은 주로 '부정문'과 함께 쓰이니...

"탈중앙화는 아직인가?" 와 같은 번역이 더 자연스런 제목이 아닐까 하네요.

Hacker News 의견
  • 오늘 처음으로 Herfindahl–Hirschman Index에 대해 알게 되었음, 그래서 기억에 남는 특이한 사례로 테스트해보고 싶었음
    1980년대 후반, 한 시기에 Microsoft가 Macintosh 스프레드시트 시장에서 100%를 넘는 점유율을 기록했음
    어떻게 이런 일이 가능한가 하면, 시장 점유율 계산 방식이 특정 기간의 각 참가자의 판매량을 시장 전체 판매량으로 나누는 것인데, 당시 Lotus의 Lotus Jazz라는 스프레드시트가 너무 실패해서 반품량이 판매량을 넘었음
    그 결과로 Lotus는 음수의 점유율을 가지게 되었고, Microsoft Excel의 판매량은 시장 전체 판매량보다 많아지면서 100%가 넘는 점유율이 나왔음
    정확한 수치는 기억 안 나지만, 대략 Microsoft 102%, Lotus -2% 정도였음
    이런 경우 Herfindahl–Hirschman Index는 1022 + (-2)2 = 10404 + 4 = 10408이 됨
    이처럼 극단적인 경우에는 HHI가 10,000을 넘을 수도 있음
    (설명을 위해 "특정 기간 내" 조건을 추가함)

    • 온라인에서 관련 기사를 굉장히 열심히 찾아봤으나 찾지 못했음 (어딘가 마이크로피시에 있을지도...)
      대신 재미있는 일화를 하나 발견했음
      Lotus 임원이 “첫 달에는 62,000개를 출하했고, 다음 달에는 64,000개가 반품되었다. 심지어는 불법복제본까지 반납됐다”라고 농담했다고 함
      Forbes 관련 기사

    • HHI는 정말 유용한 지표임
      정규화된 점유율의 제곱합 개념이 시장 점유율뿐만 아니라 다양한 상황에서 잘 적용됨
      투표에서도 훌륭하게 사용되는 예시가 있음

  • 결과가 흥미로워서 놀랍지는 않음
    BlueSky는 일반 사용자 입장에서 Twitter를 거의 대체할 수 있는 서비스임
    Mastadon의 전체 유저 수는 적지만, Mastadon 생태계가 AT-Proto 생태계처럼 중앙 집중을 피하고 있다는 모습이 보기 좋음
    개인적으론 AT proto 서버/릴레이 운영 비용이 소규모 사업자에겐 꽤 부담일 거라 예상하는데, 이건 두 생태계 내부 구조를 깊이 알지 못하는 상태에서 추측한 것임

    • 자신과 몇 명의 친구를 위해 PDS 서버를 운영하는 것은 그리 비싸지 않음
      하지만 그렇게 운영할 때 큰 이점이 있는 것도 아님, PDS의 목적은 자신의 데이터와 네트워크 전체 데이터를 깔끔하게 분리하는 데 있음
      ATProto에서 비용이 많이 드는 건 Relay(전체 데이터를 수집/브로드캐스트)와 AppView(모든 게시물/좋아요 등을 데이터베이스에 보관하고 사용자 요청에 응답)임
      물론 소규모 네트워크, 예를 들어 WhiteWind처럼 긴 글을 올리는 용도라면 이벤트 발생량이 적어서 무리 없이 가능함
      대부분은 직접 호스팅할 필요가 없는 구조로 설계됨
      자신만의 알고리즘 피드나 프론트엔드를 Bluesky가 운영하는 Relay나 AppView에서 데이터를 받아서 구현할 수 있음

    • BlueSky가 성공적인 이유 중 하나는 Mastodon처럼 사용자에게 '분산화'를 앞세워 내세우지 않는 점이라고 생각함
      대다수 사용자는 분산화가 뭔지도 모르고 알고 싶어하지 않음
      분산화보다 좋은 운영과 관리 기능에 더 많은 노력이 필요하다고 봄

    • ATProto는 다양한 배경의 기업과 투자자들이 지원하고 있음
      언젠가는 그들도 이득을 원할 것이고, 어떤 방식으로 그게 실현될지 예측하기 힘듦

    • 운영 비용 논의에 대해, ATProto는 구조 자체가 아주 다름
      Mastodon은 여러 개의 개별 트위터 같은 서버들이 이메일처럼 정보를 주고받는 형태라, 소규모 지인용 서버는 저렴함
      하지만 이런 구조에서는 글로벌 네트워크와 연결성이 떨어지고, 내 서버가 곧 내 정체성임
      타 서버의 사용자를 팔로우하면, 내 서버가 정보를 그 서버에 요청하지만 기본적으로 전체 네트워크의 뷰가 파편화됨
      ATProto는 처음부터 중앙집중형 서비스와 경쟁할 수 있도록 '분할'이 다르며, 데이터의 출처와 애플리케이션 집계가 분리되어 있음
      이는 약간 모든 사용자가 자신의 웹사이트(url)에 JSON을 올리고, 앱이 그 데이터를 집계하는 식과 비슷함
      결과적으로 모든 사람이 동일한 뷰(모든 댓글, 좋아요, 답글이 다 반영됨)를 가지게 됨
      Mastodon은 하나의 '인스턴스'가 독립적인 트위터 웹앱인 반면, ATProto엔 여러 분산 프리미티브가 있음

      • PDS는 앱과 무관한 데이터 저장소, 직접 운영비는 극히 저렴함(사용자당 1달러/월 이하 수준), 오픈소스 구현도 있고, Git 호스팅과 유사함
      • AppView는 실제 어플리케이션 백엔드 역할, 전체 네트워크 데이터를 ingest하는 Bluesky AppView를 운영하려면 한 달 $300 정도 소요
        Mastodon 방식처럼 네트워크 일부만 보는 AppView는 훨씬 저렴하지만, 매력이 떨어져 거의 안 쓰임
      • Relay는 여러 PDS와 AppView를 잇는 데이터 브로드캐스트 최적화용, Sync 1.1 이후 가격이 크게 낮아져 한 달 $30 수준
        정리하자면, PDS와 Relay 운영은 저렴하고, AppView 전체를 운영하는 게 비용이 큰데, Mastodon엔 비슷한 개념이 아예 없기 때문임
        Mastodon의 파편화된 경험과 ATProto의 일관된 경험을 단순 가격 비교하는 것은 무리가 있음
        부분 AppView를 Mastodon처럼 돌리는 것은 저렴하지만 실질적인 매력이 적음
        또한, Mastodon은 on-demand fetching을 도입해 일부 해소하려 하지만, pull 기반 분산 시스템에는 한계가 있음
        관련 질문
  • 결국 분산 시스템에서도 자연스럽게 중앙집중 현상이 보임
    Git도 분산화 시도였지만, 실제로는 GitHub나 GitLab 등 특정 플랫폼에 집중됨
    BitTorrent도 분산이지만, 트래커 사이트가 자연스러운 중심으로 기능함
    Bitcoin 역시 Coinbase 등 일부 서비스가 중심 역할을 하게 됨
    이메일(SMTP)도 스팸 문제로 인해 사실상 중앙집중 현상이 있음

    • 이메일(SMTP)의 경우 "큰 업체만 스팸 필터링이 가능하다"는 것은 사실 아님
      오래된 분산 스팸 필터링 리스트도 있고, 대형 업체가 스팸 필터링에서 특별한 우위가 있는 것도 아님
      다만 대형 업체가 작은 메일 서버를 스팸으로 간주하는 경향이 있고, 실제로 경쟁자를 제압하려는 의도도 있을 수 있음
      하지만, 메일 서버에 역방향 DNS와 DKIM만 제대로 설정하면 무조건 스팸 처리된다는 것도 아니고, 큰 서비스라 해도 서로를 스팸으로 처리할 수 있어서 절대적인 것은 아님

    • 트래커 사이트는 다양하게 존재하고, 사라지면 다른 트래커가 금방 생겨남
      따라서 생태계를 통제하는 단일 플레이어가 있는 게 아니라서 여전히 분산화라고 볼 수 있음

    • Coinbase 같은 서비스는 누구나 만들 수 있음
      실제로 다양한 유사 사이트가 존재하고, 이제는 PayPal도 사용 가능함
      한 서비스에만 의존할 필요도 없고, 예를 들어 PayPal에서 비트코인을 사고 Coinbase에서 팔 수도 있음
      이런 상황을 중앙집중이라고 정의하는 게 이상하다고 생각함

    • Git 자체는 분산화를 목표로 한 도구가 아님, 그런 점도 있음

    • 언급된 모든 예시가 결국 중앙집중 요소가 있긴 함

  • 페디(분산 소셜 생태계)에서 더 분산화되어 있긴 하지만, 일관성 면에서는 부족함
    이것 때문에 페디에 진입한 사용자들이 가장 많이 불만을 느낌
    개인적으로는 큰 도약이라고 보고 괜찮다고 생각하지만, 현실적인 기대치를 세우는 것이 더 중요함

    • 일관성(consistency)이 정확히 어떤 의미인가 궁금함 (페디버스를 써본 적이 없어서 맥락이 없음)
  • IRC, NNTP 같은 예전 연합형 시스템은 HHI 같은 방식으로 어떻게 측정할 수 있을지 궁금함
    과거 시스템들은 이런 지표에서 어떤 결과가 나올지 궁금증이 생김

    • freenode가 주인 바뀌자 거의 일주일 만에 모두 이전한 사례가 있음
      이러한 이동성이 아주 쉽고도 가능했다는 점이 흥미로움

    • 소규모, 세미-프라이빗한 환경에서는 특히 웹 프론트엔드를 통한 scroll-back이 제공되는 IRC가 여전히 훌륭함
      하지만 규모가 너무 커지면 정치와 문화 차이 때문에 무너지기 시작함
      같은 성향의 사람들이 모이면 매우 잘 동작하지만, 전체 공개로 가면 의견 차이, 트롤, AI 봇 문제 등이 생김
      웹 인터페이스를 세미프라이빗하게 유지하고 간단한 인증, 리퍼러 차단 등으로 보안 위협, 분란, 제3자 봇을 방지할 수 있음
      NNTP도 괜찮지만, 바이너리 그룹 전체를 개별적으로 미러링하는 건 쉽지 않고, ISP들이 더 이상 지원하지 않아 대부분은 상용 뉴스 피드나 무료 Usenet 제공자를 사용함
      일부 무료 제공자와 피어링해서 검열 위험을 줄이는 게 좋음
      IRC, NNTP 모두 개인들이 자신만의 프라이빗 혹은 세미-프라이빗 링크드 서버를 만들 수 있음
      관련 정보

    • 수학적으로 계산하는 건 쉽고, 관련 네트워크 통계는 netsplit.de에서 확인 가능함

  • Nostr가 이런 HHI 분포에 추가된다면 재미있을 것 같음
    Nostr에선 유저 기반 집중화가 fedi 모델의 주요 약점으로 꼽히는데, Nostr는 사용자 아이덴티티가 단일 릴레이에 있지 않아서 적용이 조금은 이상하게 나올 것임

    • 대부분의 Nostr 클라이언트가 여러 릴레이에 데이터를 전송하고, 계정 자체가 사용자의 기기의 공개키 쌍이기 때문임
  • 이런 중앙집중/분산화 문제는 늘 마케팅과 UX의 문제이지 않을까 생각함

  • Threads가 Fediverse에 포함된다면 재미있는 변화가 있을 것 같음

    • Threads 역시 자체적으로 더 강력한 프라이버시 컨트롤을 opt-in 형태로 제공하지만, 결국 Fediverse에서 "사용자 데이터를 소유한 서버" 중 하나로 간주할 수 있다고 생각함
  • 균형을 잘 유지하는 게 중요함
    지나치게 분산화되면 아무도 찾지 못하고, 지나치게 중앙집중되면 검열로 자유가 사라짐

    • 개인적으로는 분산 환경에서 찾기(discoverability)가 정말로 불가능한 일인지 궁금함
      만약 인덱싱에 충분한 자원(돈/인력 등)을 투입하면, 균형점(middle ground)이 마치 펜듈럼을 거꾸로 세우는 것처럼 불안정하게 유지될 수도 있음
      블로그 황금기 때처럼, 검색엔진(중앙)과 블로그/포럼(개별)이 조화를 이룬 적도 있으나, 시간이 지나면서 스팸과 대형 플랫폼 통합으로 약화되었음

    • '찾기' 기능에 반드시 중앙집중 요소가 필요하다는 가정에서 출발하는 점을 짚고 싶음

    • 경제학적으로 HHI 수치 100 이하면 '경쟁 심함', 1500 이하면 '비집중', 2500 이상은 '고집중'으로 봄
      Fediverse는 거의 왼쪽 끝에 가까우면서도 이미 690임
      완전 중앙집중(위로 쭉 올라간 상태)은 5000임
      실제로 비선형 스케일을 선형적으로 보여주고 있음

    • 인위적 선택권을 원함
      중앙집중, 분산화, 하이브리드 등의 옵션을 사용자가 직접 고르는 형태로 되어 있길 바람

    • '너무 분산됐다'는 비판이 있다면, 비영리 조직이 공개 호스트들이 자발적으로 등록하는 인덱스를 만들어 모든 분산 콘텐츠를 찾게 할 수도 있음
      이런 식이면 검색 문제도 해결 가능할 것임
      결국 Facebook이 Threads로 이런 데이터를 끌어가길 시도할지도 모르겠음

  • HHI 지표 자체가 새롭고 이해하기 쉬움
    0~100으로 스케일 다운(100으로 나누기)하면 숫자가 더 직관적으로 보일 것 같음
    또한 0이 중앙집중, 100이 완전분산이 되게 뒤집는 것도 고려해볼 만함
    홈페이지 제목에서 분산화를 향한 '진행상황'을 측정하는 듯한 느낌이 있어서 그렇게 하면 더 직관적일 듯함

    • 그러나 0~100으로 정규화하지 않은 이유는 사람들이 이 수치를 선형적으로 인식하지 않게 하기 위함일 수 있음
      2500이라는 점수를 보면 무슨 의미인지 궁금해지지만, 25/100이라고 나오면 '고집중'이라는 느낌이 덜해지기 때문임