1P by GN⁺ 6시간전 | ★ favorite | 댓글 2개
  • GitHub의 Star 매매 생태계가 전용 웹사이트, 프리랜서 플랫폼, 교환 네트워크, 비공개 채널에 걸쳐 형성돼 있으며, 2019년부터 2024년까지 분석에서 약 600만 개의 의심 가짜 스타가 1만8617개 저장소와 약 30만1000개 계정에 분산된 것으로 식별됨
  • 2024년 들어 가짜 스타 캠페인이 급증했고 스타 50개 이상 저장소의 16.66% 가 관련된 것으로 집계됐으며, 구매된 스타가 GitHub Trending 등장과 플랫폼 발견 알고리듬 우회에도 실제로 사용됨
  • 가짜 스타 판매는 스타당 0.03달러에서 0.90달러 수준으로 계정 품질과 전달 방식에 따라 거래되며, 기여 그래프 조작 도구와 사전 제작 프로필 판매, 교체 보장, 구매 API까지 포함한 인프라로 확대됨
  • GitHub 스타 수는 투자 유치 지표와 직접 연결돼 시드와 Series A 구간의 기준치로 활용되고, 적은 비용의 스타 구매가 부풀려진 traction 인식과 자금 조달로 이어지는 자기강화 루프 형성
  • 포크 대비 스타 비율과 워처 대비 스타 비율이 조작 탐지 1차 필터로 제시되며, GitHub 정책상 금지와 FTC 규칙 시행에도 계정 단속은 저장소 삭제보다 낮아 구조적 대응은 아직 구현되지 않음

600만 개 가짜 스타

  • Carnegie Mellon University, North Carolina State University, Socket 연구진의 StarScout 분석에서 2019년부터 2024년까지 GitHub 메타데이터 20TB, 이벤트 67억 건, 스타 3억2600만 건을 조사한 결과, 약 600만 개의 의심 가짜 스타가 1만8617개 저장소와 약 30만1000개 계정에 분산된 것으로 식별됨
  • 2024년에 가짜 스타 캠페인이 급격히 늘어났으며, 7월 기준 스타 50개 이상 저장소의 16.66% 가 관련된 것으로 집계됨
    • 2022년 이전에는 거의 0에 가까운 수준
  • 탐지 정확도 검증에서도 StarScout가 표시한 저장소의 90.42%, 계정의 57.07%가 2025년 1월 기준 삭제된 것으로 확인됨
    • GitHub 역시 이를 비정상 활동으로 인식했음을 뒷받침하는 수치
  • 가짜 스타 수혜 저장소 가운데 AI와 LLM 관련 저장소가 비악성 범주 최대 규모로 나타났으며, 절대 수 기준 17만7000개의 가짜 스타가 집계됨
    • 학술 논문 저장소나 LLM 관련 스타트업 제품이 많이 포함된다고 인용됨
  • 가짜 스타 캠페인이 탐지된 저장소 78개가 GitHub Trending에 등장했으며, 구매된 스타가 플랫폼 발견 알고리듬 우회에 실제로 사용됨
  • 2023년 3월 Dagster 조사에서는 엔지니어들이 직접 두 판매자에게 스타를 구매해 현상을 검증함
    • 독일 등록 기업 GitHub24는 스타당 EUR 0.85를 청구했고 100개 스타가 한 달 뒤에도 모두 유지됨
    • Baddhi Shop은 1000개 스타를 64달러에 판매했으나 유지율은 75% 수준으로 제시됨

마켓플레이스

  • GitHub 스타 판매 생태계가 전용 웹사이트, 프리랜서 플랫폼, 교환 네트워크, 비공개 채널에 걸쳐 형성돼 있으며, 최소 12개 이상의 활성 웹사이트가 직접 GitHub 스타를 판매 중
    • SocialPlug.io, Buy.fans, Boost-Like.store, GitHubPromoter.com, Followdeh.com, Vurike.com 등이 예시로 열거됨
  • 가격대는 계정 품질과 전달 방식에 따라 구분됨
    • 저가형은 스타당 0.03달러에서 0.10달러, 며칠 내 전달, 신규·빈 프로필 사용
    • 중간형은 0.20달러에서 0.50달러, 1주에서 2주 전달, 일부 활동 이력 포함
    • 프리미엄형은 0.80달러에서 0.90달러, 점진적이고 자연스러운 전달을 표방하며 수년 된 계정과 저장소·기여 이력 포함
  • Fiverr에서도 24개의 활성 기그가 GitHub 프로모션을 판매 중이며, 기본 스타와 포크는 5달러, "organic promotion"은 25달러 이상으로 책정됨
    • 플랫폼 필터를 피하기 위해 완곡하거나 우회적인 표현 사용
  • GithubStarMate.com, SafeStarExchange.com 같은 스타 교환 플랫폼도 운영 중이며, 크레딧 기반 상호 스타 방식 제공
  • 인프라가 스타 판매에 그치지 않고 GitHub 기여 그래프 조작까지 확장됨
    • fake-git-history, commit-bot, Commiter 등 최소 7개의 오픈소스 도구가 GitHub 기여 이력 위조 목적에 맞춰 존재
    • 5년 커밋 이력과 Arctic Code Vault Contributor 배지를 가진 사전 제작 GitHub 프로필이 Telegram에서 약 5000달러에 판매됨
  • 일부 판매자는 교체 보장까지 제공함
    • Followdeh는 30일 보장을 광고
    • 프리미엄 서비스는 GitHub 탐지를 통과하는 "non-drop" 스타를 약속
    • SocialPlug는 5만3000명 이상 고객에게 310만 개 스타를 전달했다고 주장하며 구매 API도 제공
  • Tsinghua University의 ACSAC 2020 연구에서는 중국 QQ·WeChat 프로모션 그룹의 상업 구조가 문서화됨
    • 1020명 이상의 구성원이 하루 약 20개 저장소를 처리
    • 홍보자 이익이 연간 340만 달러에서 440만 달러로 추정됨

자체 분석: 가짜 스타게이저의 특징

  • GitHub API 기반 분석 도구를 구축해 20개 저장소를 조사했으며, StarScout 표시 저장소, Runa Capital ROSS Index의 고성장 AI 저장소, 유기적 기준선 저장소를 함께 비교함
  • 각 저장소마다 스타게이저 프로필 150개씩 샘플링해 계정 나이, 공개 저장소 수, 팔로워 수, 자기소개 존재 여부를 측정함
  • 조작 흔적은 몇 가지 공통 지표에서 반복적으로 드러남
    • 계정이 아주 새롭지 않아도 비어 있는 계정 비율이 높음
    • 포크 대비 스타 비율과 워처 대비 스타 비율이 유기적 저장소보다 크게 낮음
  • 유기적 기준선

    • Flask, LangChain, AutoGPT의 중앙 계정 나이는 각각 4801일, 2967일, 4022일로 제시되며, 스타게이저 다수가 오랜 기간 GitHub를 사용한 개발자 집단으로 나타남
    • 공개 저장소가 전혀 없는 비율은 5.3%, 5.9%, 2.0% 수준이며, 팔로워 0명 비율도 10.0%, 11.8%, 5.9%로 낮은 편
    • Flask의 고스트 계정 비율은 1.3%, Flask·LangChain·AutoGPT의 suspicious accounts 비율은 0.0%로 제시됨
    • 포크 대비 스타 비율은 Flask 0.235, LangChain 0.155, AutoGPT 0.090으로, 코드 실제 사용과 변형이 일정 수준 동반됨
    • 워처 대비 스타 비율은 Flask 0.029, LangChain 0.006, AutoGPT 0.005로 나타남
    • 유기적 저장소의 스타게이저는 수년간 활동했고, 자체 프로젝트를 보유하며, 다른 사용자를 팔로우하는 개발자 특성 보유
    • 저장소 0개·팔로워 0명·자기소개 없음의 고스트 계정은 건강한 프로젝트 기준 약 1% 수준으로 제시됨
  • 조작된 블록체인 저장소

    • Union Labs, Shardeum, FreeDomain, Anoma의 중앙 계정 나이는 997일에서 1180일 범위로, 단순한 신규 계정 필터는 통과하는 수준
    • 그러나 계정 내부는 비어 있으며, 공개 저장소 0개 비율이 28.0%에서 38.0%, 팔로워 0명 비율이 52.0%에서 81.3%, 고스트 계정 비율이 19.3%에서 28.7%로 높게 나타남
    • 포크 대비 스타 비율은 Union Labs 0.052, Shardeum 0.022, FreeDomain 0.017, Anoma 0.121로 제시됨
    • 워처 대비 스타 비율도 FreeDomain 0.001 등으로 매우 낮음
    • 이런 계정은 오래된 계정을 구매했거나 농장식으로 확보해 스타 캠페인에 투입한 패턴으로 해석됨
    • 포크 대비 스타 비율이 가장 강한 신호로 제시됨
      • Flask는 스타 1000개당 포크 235개
      • Shardeum은 22개
      • FreeDomain은 17개
    • 워처 대비 스타 비율도 같은 방향을 가리키며, FreeDomain의 0.001은 스타 1000명당 실제 업데이트를 지켜보는 사용자가 1명 수준임을 뜻함
  • FreeDomain

    • 15만7000개 스타를 보유하지만 워처는 168명, 포크는 2676개로 제시됨
    • 워처 대비 스타 비율이 Flask보다 26배 낮음
    • 샘플링된 스타게이저 가운데 81.3%가 팔로워 0명으로, GitHub 내 가시적 활동 기반이 거의 없는 계정 구성 드러남
  • Union Labs

    • 2025년 2분기 Runa Capital ROSS Index 1위로 선정됐으며, 스타 증가율 54.2배와 스타 7만4300개를 기록함
    • 자체 분석에서는 공개 저장소 0개 계정 32.7%, 팔로워 0명 계정 52%, 포크 대비 스타 비율 0.052가 확인됨
    • StarScout 분석에서는 47.4% 의심 가짜 스타로 표시됨
    • VC들이 참고하는 영향력 있는 투자 발굴 보고서 최상단에 거의 절반의 스타가 인위적일 가능성이 있는 프로젝트가 올라간 구조 드러남
  • AI 부문

    • RagaAI, openai-fm, Langflow, hermes-agent를 비교한 결과, AI 저장소 내부에서도 지표 편차가 크게 나타남
    • RagaAI-Catalyst는 팔로워 0명 계정 76.2%, 고스트 계정 28.0%로 블록체인 패턴과 거의 동일한 수치 기록
    • openai-fm은 전체 데이터셋에서 가장 극단적인 사례로 제시됨
      • suspicious accounts 66.0%
      • 고스트 계정 36.0%
      • 중앙 계정 나이 116일
      • 스타게이저의 3분의 2가 1년 미만이면서 GitHub 활동이 거의 없음
      • StarScout에서는 이 사례가 OpenAI 자체가 아니라 제3자 봇일 가능성이 높다고 언급함
    • Langflow는 StarScout에서 47.9% 가짜로 표시됐지만, 프로필 샘플 분석에서는 중앙 나이 2859일과 낮은 고스트 비율로 비교적 깨끗한 수치가 나옴
      • StarScout 스캔 이후 계정 품질이 개선됐을 가능성 제기
      • 다만 포크 대비 스타 비율 0.060은 Flask의 약 4분의 1 수준으로 여전히 낮음
    • NousResearch의 hermes-agent는 상대적으로 유기적인 저장소로 분류됨
      • 중앙 계정 나이 8년
      • 고스트 계정 6%
      • 포크 대비 스타 비율 0.133
      • Reddit의 astroturfing 비난과 별개로 스타게이저 다수는 실제 개발자로 분석됨
      • 암호화폐 인접 사용자층 때문에 팔로워 0명 비율이 다소 높지만, 기본 참여 패턴은 정당한 것으로 평가됨

스타가 자금이 되는 경로

  • GitHub 스타 수와 스타트업 자금 조달의 연결이 추측이 아니라 투자자 스스로 문서화한 관계로 제시됨
  • Redpoint Ventures의 Jordan Segall이 개발자 도구 회사 80곳을 분석한 결과, 시드 투자 시 중앙 스타 수는 2850개, Series A는 4980개로 집계됨
    • 다수 VC가 빠르게 성장하는 GitHub 프로젝트를 찾기 위해 내부 스크래핑 프로그램을 운영하며, 가장 흔히 보는 지표가 스타라고 직접 언급함
  • 이 수치는 스타트업에 사실상의 구매 목표를 제공함
    • 저가 스타 기준 85달러에서 285달러면 시드 중앙값 2850개 조작 가능
    • 990달러에서 4500달러면 Series A 구간 접근 가능
    • 일반적 시드 라운드 100만 달러에서 1000만 달러를 기준으로 3500배에서 11만7000배 ROI 범위가 계산됨
  • Runa Capital은 분기마다 ROSS Index를 발행해 GitHub 스타 성장률 기준 상위 20개 오픈소스 스타트업을 순위화함
    • TechCrunch 기준 투자 유치 스타트업의 68%가 시드 단계에서 자금을 조달했고, 추적된 라운드 총액은 1억6900만 달러
  • GitHub도 GitHub Fund를 통해 M12와 협력하여 매년 1000만 달러를 투자하고, 플랫폼 traction을 일부 기준으로 프리시드·시드 단계 오픈소스 기업 8~10곳에 투자함
  • 스타에서 자금 조달로 이어진 사례가 여러 건 열거됨
    • Lovable: 5만 개 이상 스타, 750만 달러 프리시드, 45명 직원 규모에서 18억 달러 기업가치의 2억 달러 Series A
    • Pangolin**: 2025년 1월 스타 1000개, Y Combinator 합격, 2025년 8월까지**470만 달러 시드

    • Browser-use**: 3개월 만에 5만 개 스타, Y Combinator W25,** 1700만 달러 시드

      • LangChain: 시드 단계에서 Benchmark의 1000만 달러 투자
      • Dagster의 Fraser Marlow도 펀드레이징 직전 GitHub 스타에 상당한 시간을 신경 썼다고 직접 언급함
      • Organization Science 논문에서는 GitHub 활동성과 스타트업 자금 조달 결과 사이의 상관관계가 통계적으로 제시됨
      • GitHub에서 활발한 스타트업은 투자 라운드를 유치했을 가능성이 15%포인트 더 높음
      • 결과적으로 VC의 스타 추적 → 스타트업의 조작 → 부풀려진 traction 인식 → 더 많은 VC의 채택 → 더 많은 조작이라는 자기강화 루프 형성
      • Redpoint의 공개 기준치가 스타트업에 정확한 목표 수치를 제공하는 구조 드러남

포크 대비 스타 비율: 단순한 탐지 휴리스틱

  • 자체 분석에서 포크 대비 스타 비율이 잠재적 조작 식별에 가장 강한 단순 지표로 나타남
  • 논리는 단순함
    • 스타는 비용 없이 누를 수 있고 실질적 헌신을 뜻하지 않음
    • 포크는 코드를 내려받아 사용하거나 수정했다는 의미를 가짐
  • 범주별 평균 포크 대비 스타 비율은 다음과 같이 제시됨
    • 유기적 기준선 3개 저장소는 0.160
    • AI 도구 5개 저장소는 0.124
    • 조작 의심 블록체인 군집 4개 저장소는 0.053
    • 극단 사례 2개 저장소는 0.020
  • 스타 1만 개 이상이면서 포크 대비 스타 비율 0.05 미만인 저장소는 면밀한 검토가 필요하다는 기준 제시
  • 워처 대비 스타 비율은 더 직관적인 보조 신호로 제시됨
    • 유기적 프로젝트는 평균 0.005에서 0.030
    • FreeDomain은 0.001
  • 이 비율이 완벽한 판별 기준은 아니며, 교육용 저장소나 큐레이션 목록은 본래 포크 비율이 낮을 수 있음
  • 그럼에도 원시 스타 수치만으로는 놓치는 가장 심한 사례를 1차 필터로 잡아내는 데 유효하다는 평가

GitHub 밖의 가짜 인기

  • 인기 지표가 신뢰에 영향을 미치는 모든 플랫폼으로 같은 현상이 확대됨
  • npm 다운로드 수는 매우 쉽게 부풀릴 수 있음
    • Andy Richardson이 단일 AWS Lambda 함수의 무료 티어만 사용해 is-introspection-query 패키지를 주당 거의 100만 다운로드까지 끌어올렸음
    • urql, mobx 같은 정상 패키지보다 많은 수치였지만 실제 사용자는 0명으로 제시됨
    • CMU 연구에서는 가짜 스타 캠페인이 있는 저장소 중 패키지 레지스트리에 나타난 비율이 1.23%에 불과했지만, 그 738개 패키지 가운데 70.46%가 의존 프로젝트 0개로 나타남
  • VS Code Marketplace 확장도 같은 취약성을 보임
    • 연구진이 48시간 안에 가짜 확장 프로그램 설치 1000회 이상을 입증
    • AquaSec은 알려진 악성 의존성을 가진 확장 1283개, 총 설치 수 2억2900만 회를 발견
  • X/Twitter 프로모션은 인위적 GitHub 바이럴을 증폭함
    • engagement pod라는 비공개 그룹에서 구성원들이 서로 좋아요, 재게시, 댓글을 교환
    • Growth Terminal은 이를 제품 기능으로 판매
    • NBC News와 Clemson University 연구진은 LLM 생성 콘텐츠로 13만 회 이상 게시686개 X 계정 네트워크를 확인
    • 일부 게시물에는 사용한 모델의 흔적인 "Dolphin here!" 같은 표현 포함
  • Higgsfield AI 사례에서는 플랫폼 간 astroturfing이 대규모로 문서화됨
    • 60개 이상 서브레딧에 걸친 100개 이상 스팸 게시물
    • 콘텐츠 제작자에게 홍보 대가를 제안하는 템플릿 DM 대량 발송 결합

거의 언급되지 않는 법적 노출

  • FTC Consumer Review Rule이 2024년 10월 21일부터 시행되며, 상업 목적의 봇·가짜 계정 기반 "가짜 소셜 미디어 영향력 지표" 매매를 명시적으로 금지함
  • 위반 시 제재는 건당 최대 5만3088달러로 제시됨
  • FTC는 2025년 12월 10개 기업에 첫 경고장을 발송했으며, 상업 제품 홍보용 GitHub 스타 구매가 이 프레임워크에 들어맞는다고 서술됨
  • SEC 선례도 더 직접적인 사례로 제시됨
    • HeadSpin CEO는 지표를 부풀려 투자자에게서 8000만 달러를 끌어낸 혐의로 전신사기와 증권사기 기소
    • ComplYant 창업자는 월 매출 25만 달러라고 주장했지만 실제는 250달러였던 혐의로 기소 직면
  • SEC는 스타트업 펀드레이저가 "fake it until you make it" 문화를 투자자 기만에 사용할 수 없다는 메시지 제시
  • 스타트업이 자금 조달 과정에서 가짜 GitHub 스타로 traction을 부풀리고, 투자자가 그 지표를 근거로 자본을 투입했다면, 전자통신을 이용한 중요 사실 허위 진술이라는 전신사기 프레임워크가 적용될 수 있다고 연결됨
  • 아직 가짜 GitHub 스타만으로 기소된 사례는 없지만, CMU 연구의 대규모 실증과 FTC 규칙의 명시적 금지를 고려하면 시간문제일 수 있다는 관측 제시됨

GitHub의 대응

  • GitHub의 Acceptable Use Policies는 비진정성 상호작용, 가짜 계정과 자동화된 비진정성 활동, 자동 스타·팔로우 같은 순위 남용, 비진정성 활동 확산을 위한 2차 시장 참여를 명시적으로 금지함
  • 암호화폐 에어드롭, 토큰, 크레딧, 선물 등 보상에 의해 유도된 스타도 정책상 금지 대상에 포함됨
  • 집행은 반응형이고 비대칭적으로 평가됨
    • StarScout가 표시한 저장소는 90.42% 삭제됐지만, 해당 스타를 제공한 계정은 57.07%만 삭제
    • 미래 캠페인에 쓸 수 있는 계정 인프라 상당 부분이 남아 있음
  • Dagster 조사에서도 가짜 스타 프로필이 48시간 안에 삭제됐지만, 공개적 망신 이후 대응한 것으로 제시되며 사전 탐지 사례는 아님
  • GitHub는 스타 조작 탐지 방식이나 집행 통계를 다룬 엔지니어링 블로그 글을 공개한 적이 없고, 별도의 투명성 보고서도 없음
  • GitHub 보안 운영 부사장은 Wired에 정책에 따라 계정을 비활성화했다고만 답했고 추가 설명은 거부함
    • 다만 이 발언은 vanity metric 조작이 아니라 Stargazers Ghost Network 악성코드 작전에 대한 코멘트로 명시됨
  • CMU 연구진은 원시 스타 수 대신 네트워크 중심성 기반 가중 인기 지표 도입을 권고함
    • 가짜 스타 경제를 구조적으로 약화시킬 수 있는 변경으로 제시됨
  • GitHub는 이 권고를 아직 구현하지 않음

VC가 대신 봐야 할 지표

  • Bessemer Venture Partners는 스타를 vanity metrics로 부르며, 대신 월간 고유 기여자 활동을 추적함
    • 이슈 생성, 댓글, PR, 커밋 수행자를 모두 포함
    • 상위 1만 개 프로젝트 중 250명 이상의 월간 기여자를 넘긴 경우는 5% 미만
    • 6개월 연속 유지한 경우는 2%에 불과
  • StateShift의 Jono Bacon은 실제 채택과 상관성이 있는 5가지 지표를 권고함
    • 패키지 다운로드 수
    • 실제 사용자의 프로덕션 엣지 케이스가 드러나는 이슈 품질
    • 두 번째 PR까지 걸리는 시간으로 측정하는 기여자 유지
    • 커뮤니티 토론 깊이
    • 사용량 텔레메트리
  • 자체 분석에서 드러난 포크 대비 스타 비율은 가장 단순한 1차 필터로 제시됨
    • 건강한 프로젝트는 스타 1000개당 대략 포크 100개에서 200개
    • 스타 절대치가 높은데 스타 1000개당 포크 50개 미만이면 추가 점검 필요
  • 인용문으로는 "스타 수는 속일 수 있어도, 누군가의 주말을 구한 버그 수정은 속일 수 없다"는 문장이 제시됨

구조적 문제

  • 가짜 스타 경제가 자기강화되는 이유로 세 가지 동학이 제시됨
  • 인센티브 루프

    • VC가 스타를 소싱 신호로 사용
    • 스타트업이 스타를 조작
    • VC가 부풀려진 traction을 확인
    • 더 많은 VC가 스타 추적을 도입
    • 더 많은 스타트업이 조작에 뛰어드는 순환 구조 형성
    • Redpoint의 공개 벤치마크 시드 2850개, Series A 4980개가 사실상 구매 수량표 역할 수행
  • AI 부문의 취약성

    • 과도한 과열, 제품 품질보다 토큰 가격을 보상하는 암호화폐 인접 자금 구조, 조작된 페르소나가 섞인 X/Twitter 리뷰어 생태계가 결합해 제조된 신뢰에 유리한 환경 형성
    • 자체 분석에서도 조작 신호가 가장 나쁜 저장소 다수가 블록체인 및 암호화폐 인접 AI 프로젝트로 확인됨
  • GitHub 집행의 비대칭성

    • 저장소를 제거하면서도 가짜 계정의 57%를 남겨두는 구조가 가짜 스타 경제의 노동력을 보존
    • 반복 위반 억지력이 약함
    • GitHub가 가중 인기 지표, 계정 수준 평판 점수, 투명한 집행 보고 같은 구조적 변화를 도입하지 않는 한, 스타 수와 실제 개발자 채택 사이의 격차가 계속 확대될 것으로 정리됨
    • 가짜 스타 경제는 50달러짜리 문제5000만 달러짜리 결과를 낳는 구조로 요약됨
    • 플랫폼, 투자자, 규제기관이 따라잡기 전까지 시장은 계속 그 50달러를 지불하게 된다는 문장으로 마무리됨

개인적으로 스타는 최소치를 잡고 봐야지 그 자체로 판단의 기준으로 삼지는 않습니다
스타가 100개도 되지 않는 프로젝트는 좀 더 의심스럽게 살펴보겠지만 스타가 5만 개를 넘었다고 무조건 신뢰하지는 않죠.

Hacker News 의견들
  • VC가 GitHub stars 같은 상상의 인터넷 점수로 실제 투자 결정을 내린다는 게 도무지 이해되지 않음. NFL 팀이 쿼터백을 패스 성공률 대신 Instagram 팔로워 수로 뽑는 격으로 보임. Cleveland Browns 기록을 봐도 농담거리일 뿐 진지한 우승 전략은 아니라고 느낌. 이게 VC의 게으름인지, ZIRP 같은 환경에서 돈이 너무 많이 풀린 부작용인지 묻게 됨. 내 돈을 stars 기준으로 굴리겠다고 하면 웃다가 곧 정색하게 될 것 같음
  • 나는 라이브러리를 고를 때 stars를 거의 본 적이 없고, 왜 보는지도 잘 모르겠음. 내가 보는 건 최근 커밋 시점, 프로젝트 나이, 이슈가 어떻게 처리되는지, 그리고 일부 코드 품질임. stars는 결국 그런 실질 지표의 간접 결과이거나 사기일 뿐이라서, 직접 살펴보지 않으면 의미가 없다고 봄. 나는 예전부터 stars를 "나중에 다시 볼 북마크" 정도로만 여겼고, 품질 지표로 둔갑한 걸 보고 놀랐음. FTC가 이런 관행을 강하게 다뤘으면 좋겠음. 커밋 히스토리도 그냥 훑어보면 변화 종류와 cadence가 보여서 꽤 유용함
    • 사람들이 결국 번쩍이는 장식물에 이끌린다는 점에서는, Napoleon의 말처럼 영광과 훈장, 보상이 사람을 움직인다는 비유가 딱 맞는 것 같음
    • 내가 직접 stars를 안 본다고 해도, 내가 쓰는 의존성의 제작자가 그 숫자에 영향을 받으면 여전히 문제라고 봄
  • 이런 기사들을 보면 특정 문제만 살짝 조정하면 해결될 것처럼 느껴지지만, 내가 보기엔 시스템 자체가 훨씬 더 망가져 있음. 신호 자체가 상품화됐다는 게 핵심임. SaaS를 만들면 돈 받고 "올해의 Top 앱" 리스트에 넣어주겠다는 기자들이 붙고, 소셜 팔로워를 늘려주겠다는 업자들이 오고, niche 전문가를 찾아주겠다는 리크루터는 결국 LinkedIn 스크래핑과 스팸만 돌림. 채용에서는 동아시아의 인터뷰 팜에 앉아 Washington D.C. IP로 접속하고, 유럽식 이름을 쓰고, 합성 배경을 켜고, 공고에 있는 기술을 전부 아는 척하는 후보까지 실제로 봤음. 중요한 지표가 생기면 그걸 조작하는 생태계가 곧 생기고, 조작 자체가 그냥 사업 운영의 일부가 되어버린다고 느낌
    • 결국 전부 돈을 더 벌기 위한 일로 수렴한다고 봄
    • 마지막에는 회사가 헛된 지표를 살지 말지 선택하는 문제라고 봄. 우리도 최근 저장소에서 AI 봇 활동을 더 어렵게 만들려고 했고, 이 글처럼 상대적으로 쉬운 타깃만 찾는 스타트업들 쪽으로 봇이 빠지길 기대하고 있음
  • 나는 작은 사이트를 운영하면서 기존의 비공식 표준을 좀 더 명확히 정의했고, 홈페이지에 그 표준을 따르는 소프트웨어와 라이브러리 목록을 올리고 있음. 처음엔 거의 다 받아줬지만 목록이 길어지면서 notability 기준이 필요하다고 느꼈음. 며칠밖에 안 된, 거의 확실히 AI 생성이고 품질도 별로인 라이브러리를 거절하면서 "stars가 0개"라는 점도 우려로 언급했더니, 작성자가 몇 개면 되냐고 공격적으로 따졌음. 나는 답하지 않았음. stars는 고려 요소일 뿐 전부가 아니기 때문임. 필요한 건 실제 사용자와 진짜 인지도임. 이후에도 다른 개발자들이 대화에 끼어들어 애매한 기준 말고 star 컷오프를 정하라고 했지만, 일부러 안 정하고 있음. 숫자가 목표가 되는 순간 지표로서 망가지기 때문임. 페이지를 무한정 늘리고 싶지도 않고, X개 이상 stars만 넣으면 악성코드도 올라올 수 있음. 무엇보다 내 페이지에 누굴 올릴지는 내가 정할 일인데 무례하게 굴지 않았으면 함
  • VC가 GitHub 인기를 traction의 증거처럼 다루는 구조를 보면, 큰 자본이 또 모든 걸 망친다는 생각이 듦. 여기서도 Goodhart's law가 그대로 적용된다고 봄. 내가 저장소 품질을 빨리 볼 때는 유지보수 상태, 프로젝트 나이, API의 우아함, 커밋 히스토리를 봄. 기사에서 말한 것처럼 월간 고유 기여자 활동, 패키지 다운로드, 실제 사용자로 보이는 이슈 품질, 두 번째 PR까지의 유지율, 커뮤니티 토론 깊이, 사용량 telemetry 같은 지표가 실사용과 더 가깝다고 느낌
    • 나는 결국 코드를 그냥 읽어봄. 그게 제일 직접적이라고 느낌
  • 많은 사람이 stars를 "믿을 만하고 품질 좋고 많은 사람이 보는 소프트웨어"의 싸고 빠른 대리 지표로 기대하는 것 같음. 하지만 내 생각엔 proxy로서 완전히 실패함. astroturfing을 빼더라도 stars는 인기나 품질을 보장하지 않음. 기본적인 시스템 라이브러리 중엔 stars가 적은 것도 많을 거라고 봄. 코드 자체를 읽을 수 있는데 굳이 stars에 의존하는 건 무의미하게 느껴짐. 그래서 나는 stars를 건너뛰고 저장소를 훑어보며 아키텍처와 구현을 직접 평가하는 습관을 들이고 있고, 그렇게 보면 stars가 적은 대안이 더 낫다고 느낀 적이 꽤 많음
    • 대안이 3개인데 각각 10만 LOC라면, 코드를 읽자는 말이 현실적으로 쉽지 않다고 봄. 결국 대리 지표가 필요함. stars는 신뢰할 수 없어서 별로지만, 추천이나 referral 같은 게 더 나음. 다만 내 네트워크에 지식이 없는 영역에서는 stars 같은 약한 proxy라도 쓰게 되는 현실이 있음
    • 예전에는 이슈 페이지가 실사용 흔적을 보는 데 꽤 좋았음. 사람들이 어떤 문제를 겪는지 보였기 때문임. 지금도 가끔 유효하지만 agent 쓰레기들이 많아져서 예전만 못함
  • GitHub가 raw stars 대신 PageRank 같은 그래프 기반 점수를 쓰면 어떨까 싶음. 중요한 저장소를 운영하는 사용자가 stars나 fork를 했을수록 해당 저장소 점수를 높게 주는 방식임. 계산 비용은 더 들겠지만, 내가 놓친 게 없다면 지금보다는 훨씬 신뢰할 만한 결과가 나올 것 같음
    • 그 접근이 더 나은 결과에 가까워 보이긴 함. 다만 모든 사용자를 열로 넣는 구조라면 여전히 게임 가능성이 있다고 봄. 차라리 trusted peers나 친구의 친구 같은 제한된 집합을 쓰거나, 단순한 좋아요 기반 대신 사후적 신호를 쓰는 편이 더 낫다고 느낌
  • 진짜 궁금한 건 VC가 왜 star 시스템을 신뢰 가능한 것으로 보는가임. stars를 누른 사용자는 곧 프로젝트를 잊는 경우가 많아서, 유지보수가 안 되는 낡은 프로젝트도 stars만 많을 수 있음. 최선은 아니어도 그보다는 이슈가 얼마나 살아 있는지, 열리고 닫히는지, 자동 종료가 아닌지, 응답 속도는 어떤지를 보는 편이 낫다고 봄. 내 프로젝트는 stars가 200개지만, 단순 버전 올리기 말고 의미 있는 업데이트를 꾸준히 하려면 정말 고생이 큼
    • stars는 목표가 된 지표라서 더 이상 좋은 척도가 아니게 된 전형적 사례라고 봄. 그리고 이슈 활동 같은 다른 지표도 LLM 시대에는 열고 닫고 답하는 식으로 쉽게 조작될 수 있다고 느낌
    • VC가 수천 stars를 원한다는 식의 이야기는 너무 큰 그림일 수 있다고 봄. 실제로는 누군가가 20달러 내고 자기 프로젝트를 그럴듯하게 보여서 이력서나 vanity에 쓰거나, Reddit 클릭을 더 받고, 다른 오픈소스보다 눈에 띄려는 경우가 더 흔할 것 같음. 만약 누가 stars 8천, 1만만 보고 프로젝트나 매출 가능성도 안 보고 투자한다면, 정말 무지한 투자자이거나 여름마다 학생 프로젝트 하나씩 뽑는 수준이라고 생각함. 가짜 계정들은 내 오래된 저장소에도 stars를 찍어 진짜 사용자처럼 보이려 하고, 한 달에 5천 프로젝트에 star를 찍고 다른 활동은 없는 식이라 금방 티가 남. 예전엔 GitHub Sponsor 링도 봤는데, 자금세탁이나 도난 카드 같은 냄새가 강했음
    • 내가 찾는 건 장기적인 소프트웨어 품질 신호지만, VC가 찾는 건 단기적인 급상승 momentum 신호라고 봄. 둘은 자주 서로 충돌함
    • 여기에도 pagerank 비슷한 그래프 점수가 어느 정도는 통할 수 있다고 봄. 평판 좋은 사용자가 남긴 이슈가 많은 저장소에 더 점수를 주면, 단순한 조작에는 조금 더 강해질 수 있음
    • 지난 3년 사이 크게 바뀌지 않았다면, 이 기사는 VC가 stars를 얼마나 믿는지 다소 과장했다고 느낌. 내가 10년 전 VC들과 얘기했을 때도, 대부분은 이미 stars를 허영 지표로 보고 버린 상태였음
  • GitHub는 이 문제를 아주 쉽게 단속할 수 있다고 봄. star 판매업자마다 10달러씩만 써서 직접 구매해보고, 거기에 연루된 계정을 전부 정지하면 됨. 아주 적은 돈으로도 이 생태계 전체에 큰 마찰을 줄 수 있을 것 같음
  • 관련 자료로는 Dagster의 2023년 글인 "Tracking the Fake GitHub Star Black Market with Dagster, dbt and BigQuery"와, arXiv 논문인 "Six Million (Suspected) Fake Stars in GitHub: A Growing Spiral of Popularity Contests, Spams, and Malware"가 참고할 만함