GN⁺ 8달전 | parent | ★ favorite | on: 우리는 얼마나 탈중앙화 되었는가?(arewedecentralizedyet.online)
Hacker News 의견
  • 오늘 처음으로 Herfindahl–Hirschman Index에 대해 알게 되었음, 그래서 기억에 남는 특이한 사례로 테스트해보고 싶었음
    1980년대 후반, 한 시기에 Microsoft가 Macintosh 스프레드시트 시장에서 100%를 넘는 점유율을 기록했음
    어떻게 이런 일이 가능한가 하면, 시장 점유율 계산 방식이 특정 기간의 각 참가자의 판매량을 시장 전체 판매량으로 나누는 것인데, 당시 Lotus의 Lotus Jazz라는 스프레드시트가 너무 실패해서 반품량이 판매량을 넘었음
    그 결과로 Lotus는 음수의 점유율을 가지게 되었고, Microsoft Excel의 판매량은 시장 전체 판매량보다 많아지면서 100%가 넘는 점유율이 나왔음
    정확한 수치는 기억 안 나지만, 대략 Microsoft 102%, Lotus -2% 정도였음
    이런 경우 Herfindahl–Hirschman Index는 1022 + (-2)2 = 10404 + 4 = 10408이 됨
    이처럼 극단적인 경우에는 HHI가 10,000을 넘을 수도 있음
    (설명을 위해 "특정 기간 내" 조건을 추가함)

    • 온라인에서 관련 기사를 굉장히 열심히 찾아봤으나 찾지 못했음 (어딘가 마이크로피시에 있을지도...)
      대신 재미있는 일화를 하나 발견했음
      Lotus 임원이 “첫 달에는 62,000개를 출하했고, 다음 달에는 64,000개가 반품되었다. 심지어는 불법복제본까지 반납됐다”라고 농담했다고 함
      Forbes 관련 기사

    • HHI는 정말 유용한 지표임
      정규화된 점유율의 제곱합 개념이 시장 점유율뿐만 아니라 다양한 상황에서 잘 적용됨
      투표에서도 훌륭하게 사용되는 예시가 있음

  • 결과가 흥미로워서 놀랍지는 않음
    BlueSky는 일반 사용자 입장에서 Twitter를 거의 대체할 수 있는 서비스임
    Mastadon의 전체 유저 수는 적지만, Mastadon 생태계가 AT-Proto 생태계처럼 중앙 집중을 피하고 있다는 모습이 보기 좋음
    개인적으론 AT proto 서버/릴레이 운영 비용이 소규모 사업자에겐 꽤 부담일 거라 예상하는데, 이건 두 생태계 내부 구조를 깊이 알지 못하는 상태에서 추측한 것임

    • 자신과 몇 명의 친구를 위해 PDS 서버를 운영하는 것은 그리 비싸지 않음
      하지만 그렇게 운영할 때 큰 이점이 있는 것도 아님, PDS의 목적은 자신의 데이터와 네트워크 전체 데이터를 깔끔하게 분리하는 데 있음
      ATProto에서 비용이 많이 드는 건 Relay(전체 데이터를 수집/브로드캐스트)와 AppView(모든 게시물/좋아요 등을 데이터베이스에 보관하고 사용자 요청에 응답)임
      물론 소규모 네트워크, 예를 들어 WhiteWind처럼 긴 글을 올리는 용도라면 이벤트 발생량이 적어서 무리 없이 가능함
      대부분은 직접 호스팅할 필요가 없는 구조로 설계됨
      자신만의 알고리즘 피드나 프론트엔드를 Bluesky가 운영하는 Relay나 AppView에서 데이터를 받아서 구현할 수 있음

    • BlueSky가 성공적인 이유 중 하나는 Mastodon처럼 사용자에게 '분산화'를 앞세워 내세우지 않는 점이라고 생각함
      대다수 사용자는 분산화가 뭔지도 모르고 알고 싶어하지 않음
      분산화보다 좋은 운영과 관리 기능에 더 많은 노력이 필요하다고 봄

    • ATProto는 다양한 배경의 기업과 투자자들이 지원하고 있음
      언젠가는 그들도 이득을 원할 것이고, 어떤 방식으로 그게 실현될지 예측하기 힘듦

    • 운영 비용 논의에 대해, ATProto는 구조 자체가 아주 다름
      Mastodon은 여러 개의 개별 트위터 같은 서버들이 이메일처럼 정보를 주고받는 형태라, 소규모 지인용 서버는 저렴함
      하지만 이런 구조에서는 글로벌 네트워크와 연결성이 떨어지고, 내 서버가 곧 내 정체성임
      타 서버의 사용자를 팔로우하면, 내 서버가 정보를 그 서버에 요청하지만 기본적으로 전체 네트워크의 뷰가 파편화됨
      ATProto는 처음부터 중앙집중형 서비스와 경쟁할 수 있도록 '분할'이 다르며, 데이터의 출처와 애플리케이션 집계가 분리되어 있음
      이는 약간 모든 사용자가 자신의 웹사이트(url)에 JSON을 올리고, 앱이 그 데이터를 집계하는 식과 비슷함
      결과적으로 모든 사람이 동일한 뷰(모든 댓글, 좋아요, 답글이 다 반영됨)를 가지게 됨
      Mastodon은 하나의 '인스턴스'가 독립적인 트위터 웹앱인 반면, ATProto엔 여러 분산 프리미티브가 있음

      • PDS는 앱과 무관한 데이터 저장소, 직접 운영비는 극히 저렴함(사용자당 1달러/월 이하 수준), 오픈소스 구현도 있고, Git 호스팅과 유사함
      • AppView는 실제 어플리케이션 백엔드 역할, 전체 네트워크 데이터를 ingest하는 Bluesky AppView를 운영하려면 한 달 $300 정도 소요
        Mastodon 방식처럼 네트워크 일부만 보는 AppView는 훨씬 저렴하지만, 매력이 떨어져 거의 안 쓰임
      • Relay는 여러 PDS와 AppView를 잇는 데이터 브로드캐스트 최적화용, Sync 1.1 이후 가격이 크게 낮아져 한 달 $30 수준
        정리하자면, PDS와 Relay 운영은 저렴하고, AppView 전체를 운영하는 게 비용이 큰데, Mastodon엔 비슷한 개념이 아예 없기 때문임
        Mastodon의 파편화된 경험과 ATProto의 일관된 경험을 단순 가격 비교하는 것은 무리가 있음
        부분 AppView를 Mastodon처럼 돌리는 것은 저렴하지만 실질적인 매력이 적음
        또한, Mastodon은 on-demand fetching을 도입해 일부 해소하려 하지만, pull 기반 분산 시스템에는 한계가 있음
        관련 질문
  • 결국 분산 시스템에서도 자연스럽게 중앙집중 현상이 보임
    Git도 분산화 시도였지만, 실제로는 GitHub나 GitLab 등 특정 플랫폼에 집중됨
    BitTorrent도 분산이지만, 트래커 사이트가 자연스러운 중심으로 기능함
    Bitcoin 역시 Coinbase 등 일부 서비스가 중심 역할을 하게 됨
    이메일(SMTP)도 스팸 문제로 인해 사실상 중앙집중 현상이 있음

    • 이메일(SMTP)의 경우 "큰 업체만 스팸 필터링이 가능하다"는 것은 사실 아님
      오래된 분산 스팸 필터링 리스트도 있고, 대형 업체가 스팸 필터링에서 특별한 우위가 있는 것도 아님
      다만 대형 업체가 작은 메일 서버를 스팸으로 간주하는 경향이 있고, 실제로 경쟁자를 제압하려는 의도도 있을 수 있음
      하지만, 메일 서버에 역방향 DNS와 DKIM만 제대로 설정하면 무조건 스팸 처리된다는 것도 아니고, 큰 서비스라 해도 서로를 스팸으로 처리할 수 있어서 절대적인 것은 아님

    • 트래커 사이트는 다양하게 존재하고, 사라지면 다른 트래커가 금방 생겨남
      따라서 생태계를 통제하는 단일 플레이어가 있는 게 아니라서 여전히 분산화라고 볼 수 있음

    • Coinbase 같은 서비스는 누구나 만들 수 있음
      실제로 다양한 유사 사이트가 존재하고, 이제는 PayPal도 사용 가능함
      한 서비스에만 의존할 필요도 없고, 예를 들어 PayPal에서 비트코인을 사고 Coinbase에서 팔 수도 있음
      이런 상황을 중앙집중이라고 정의하는 게 이상하다고 생각함

    • Git 자체는 분산화를 목표로 한 도구가 아님, 그런 점도 있음

    • 언급된 모든 예시가 결국 중앙집중 요소가 있긴 함

  • 페디(분산 소셜 생태계)에서 더 분산화되어 있긴 하지만, 일관성 면에서는 부족함
    이것 때문에 페디에 진입한 사용자들이 가장 많이 불만을 느낌
    개인적으로는 큰 도약이라고 보고 괜찮다고 생각하지만, 현실적인 기대치를 세우는 것이 더 중요함

    • 일관성(consistency)이 정확히 어떤 의미인가 궁금함 (페디버스를 써본 적이 없어서 맥락이 없음)
  • IRC, NNTP 같은 예전 연합형 시스템은 HHI 같은 방식으로 어떻게 측정할 수 있을지 궁금함
    과거 시스템들은 이런 지표에서 어떤 결과가 나올지 궁금증이 생김

    • freenode가 주인 바뀌자 거의 일주일 만에 모두 이전한 사례가 있음
      이러한 이동성이 아주 쉽고도 가능했다는 점이 흥미로움

    • 소규모, 세미-프라이빗한 환경에서는 특히 웹 프론트엔드를 통한 scroll-back이 제공되는 IRC가 여전히 훌륭함
      하지만 규모가 너무 커지면 정치와 문화 차이 때문에 무너지기 시작함
      같은 성향의 사람들이 모이면 매우 잘 동작하지만, 전체 공개로 가면 의견 차이, 트롤, AI 봇 문제 등이 생김
      웹 인터페이스를 세미프라이빗하게 유지하고 간단한 인증, 리퍼러 차단 등으로 보안 위협, 분란, 제3자 봇을 방지할 수 있음
      NNTP도 괜찮지만, 바이너리 그룹 전체를 개별적으로 미러링하는 건 쉽지 않고, ISP들이 더 이상 지원하지 않아 대부분은 상용 뉴스 피드나 무료 Usenet 제공자를 사용함
      일부 무료 제공자와 피어링해서 검열 위험을 줄이는 게 좋음
      IRC, NNTP 모두 개인들이 자신만의 프라이빗 혹은 세미-프라이빗 링크드 서버를 만들 수 있음
      관련 정보

    • 수학적으로 계산하는 건 쉽고, 관련 네트워크 통계는 netsplit.de에서 확인 가능함

  • Nostr가 이런 HHI 분포에 추가된다면 재미있을 것 같음
    Nostr에선 유저 기반 집중화가 fedi 모델의 주요 약점으로 꼽히는데, Nostr는 사용자 아이덴티티가 단일 릴레이에 있지 않아서 적용이 조금은 이상하게 나올 것임

    • 대부분의 Nostr 클라이언트가 여러 릴레이에 데이터를 전송하고, 계정 자체가 사용자의 기기의 공개키 쌍이기 때문임
  • 이런 중앙집중/분산화 문제는 늘 마케팅과 UX의 문제이지 않을까 생각함

  • Threads가 Fediverse에 포함된다면 재미있는 변화가 있을 것 같음

    • Threads 역시 자체적으로 더 강력한 프라이버시 컨트롤을 opt-in 형태로 제공하지만, 결국 Fediverse에서 "사용자 데이터를 소유한 서버" 중 하나로 간주할 수 있다고 생각함
  • 균형을 잘 유지하는 게 중요함
    지나치게 분산화되면 아무도 찾지 못하고, 지나치게 중앙집중되면 검열로 자유가 사라짐

    • 개인적으로는 분산 환경에서 찾기(discoverability)가 정말로 불가능한 일인지 궁금함
      만약 인덱싱에 충분한 자원(돈/인력 등)을 투입하면, 균형점(middle ground)이 마치 펜듈럼을 거꾸로 세우는 것처럼 불안정하게 유지될 수도 있음
      블로그 황금기 때처럼, 검색엔진(중앙)과 블로그/포럼(개별)이 조화를 이룬 적도 있으나, 시간이 지나면서 스팸과 대형 플랫폼 통합으로 약화되었음

    • '찾기' 기능에 반드시 중앙집중 요소가 필요하다는 가정에서 출발하는 점을 짚고 싶음

    • 경제학적으로 HHI 수치 100 이하면 '경쟁 심함', 1500 이하면 '비집중', 2500 이상은 '고집중'으로 봄
      Fediverse는 거의 왼쪽 끝에 가까우면서도 이미 690임
      완전 중앙집중(위로 쭉 올라간 상태)은 5000임
      실제로 비선형 스케일을 선형적으로 보여주고 있음

    • 인위적 선택권을 원함
      중앙집중, 분산화, 하이브리드 등의 옵션을 사용자가 직접 고르는 형태로 되어 있길 바람

    • '너무 분산됐다'는 비판이 있다면, 비영리 조직이 공개 호스트들이 자발적으로 등록하는 인덱스를 만들어 모든 분산 콘텐츠를 찾게 할 수도 있음
      이런 식이면 검색 문제도 해결 가능할 것임
      결국 Facebook이 Threads로 이런 데이터를 끌어가길 시도할지도 모르겠음

  • HHI 지표 자체가 새롭고 이해하기 쉬움
    0~100으로 스케일 다운(100으로 나누기)하면 숫자가 더 직관적으로 보일 것 같음
    또한 0이 중앙집중, 100이 완전분산이 되게 뒤집는 것도 고려해볼 만함
    홈페이지 제목에서 분산화를 향한 '진행상황'을 측정하는 듯한 느낌이 있어서 그렇게 하면 더 직관적일 듯함

    • 그러나 0~100으로 정규화하지 않은 이유는 사람들이 이 수치를 선형적으로 인식하지 않게 하기 위함일 수 있음
      2500이라는 점수를 보면 무슨 의미인지 궁금해지지만, 25/100이라고 나오면 '고집중'이라는 느낌이 덜해지기 때문임