VC가 GitHub stars 같은 상상의 인터넷 점수로 실제 투자 결정을 내린다는 게 도무지 이해되지 않음. NFL 팀이 쿼터백을 패스 성공률 대신 Instagram 팔로워 수로 뽑는 격으로 보임. Cleveland Browns 기록을 봐도 농담거리일 뿐 진지한 우승 전략은 아니라고 느낌. 이게 VC의 게으름인지, ZIRP 같은 환경에서 돈이 너무 많이 풀린 부작용인지 묻게 됨. 내 돈을 stars 기준으로 굴리겠다고 하면 웃다가 곧 정색하게 될 것 같음
나는 라이브러리를 고를 때 stars를 거의 본 적이 없고, 왜 보는지도 잘 모르겠음. 내가 보는 건 최근 커밋 시점, 프로젝트 나이, 이슈가 어떻게 처리되는지, 그리고 일부 코드 품질임. stars는 결국 그런 실질 지표의 간접 결과이거나 사기일 뿐이라서, 직접 살펴보지 않으면 의미가 없다고 봄. 나는 예전부터 stars를 "나중에 다시 볼 북마크" 정도로만 여겼고, 품질 지표로 둔갑한 걸 보고 놀랐음. FTC가 이런 관행을 강하게 다뤘으면 좋겠음. 커밋 히스토리도 그냥 훑어보면 변화 종류와 cadence가 보여서 꽤 유용함
사람들이 결국 번쩍이는 장식물에 이끌린다는 점에서는, Napoleon의 말처럼 영광과 훈장, 보상이 사람을 움직인다는 비유가 딱 맞는 것 같음
내가 직접 stars를 안 본다고 해도, 내가 쓰는 의존성의 제작자가 그 숫자에 영향을 받으면 여전히 문제라고 봄
이런 기사들을 보면 특정 문제만 살짝 조정하면 해결될 것처럼 느껴지지만, 내가 보기엔 시스템 자체가 훨씬 더 망가져 있음. 신호 자체가 상품화됐다는 게 핵심임. SaaS를 만들면 돈 받고 "올해의 Top 앱" 리스트에 넣어주겠다는 기자들이 붙고, 소셜 팔로워를 늘려주겠다는 업자들이 오고, niche 전문가를 찾아주겠다는 리크루터는 결국 LinkedIn 스크래핑과 스팸만 돌림. 채용에서는 동아시아의 인터뷰 팜에 앉아 Washington D.C. IP로 접속하고, 유럽식 이름을 쓰고, 합성 배경을 켜고, 공고에 있는 기술을 전부 아는 척하는 후보까지 실제로 봤음. 중요한 지표가 생기면 그걸 조작하는 생태계가 곧 생기고, 조작 자체가 그냥 사업 운영의 일부가 되어버린다고 느낌
결국 전부 돈을 더 벌기 위한 일로 수렴한다고 봄
마지막에는 회사가 헛된 지표를 살지 말지 선택하는 문제라고 봄. 우리도 최근 저장소에서 AI 봇 활동을 더 어렵게 만들려고 했고, 이 글처럼 상대적으로 쉬운 타깃만 찾는 스타트업들 쪽으로 봇이 빠지길 기대하고 있음
나는 작은 사이트를 운영하면서 기존의 비공식 표준을 좀 더 명확히 정의했고, 홈페이지에 그 표준을 따르는 소프트웨어와 라이브러리 목록을 올리고 있음. 처음엔 거의 다 받아줬지만 목록이 길어지면서 notability 기준이 필요하다고 느꼈음. 며칠밖에 안 된, 거의 확실히 AI 생성이고 품질도 별로인 라이브러리를 거절하면서 "stars가 0개"라는 점도 우려로 언급했더니, 작성자가 몇 개면 되냐고 공격적으로 따졌음. 나는 답하지 않았음. stars는 고려 요소일 뿐 전부가 아니기 때문임. 필요한 건 실제 사용자와 진짜 인지도임. 이후에도 다른 개발자들이 대화에 끼어들어 애매한 기준 말고 star 컷오프를 정하라고 했지만, 일부러 안 정하고 있음. 숫자가 목표가 되는 순간 지표로서 망가지기 때문임. 페이지를 무한정 늘리고 싶지도 않고, X개 이상 stars만 넣으면 악성코드도 올라올 수 있음. 무엇보다 내 페이지에 누굴 올릴지는 내가 정할 일인데 무례하게 굴지 않았으면 함
VC가 GitHub 인기를 traction의 증거처럼 다루는 구조를 보면, 큰 자본이 또 모든 걸 망친다는 생각이 듦. 여기서도 Goodhart's law가 그대로 적용된다고 봄. 내가 저장소 품질을 빨리 볼 때는 유지보수 상태, 프로젝트 나이, API의 우아함, 커밋 히스토리를 봄. 기사에서 말한 것처럼 월간 고유 기여자 활동, 패키지 다운로드, 실제 사용자로 보이는 이슈 품질, 두 번째 PR까지의 유지율, 커뮤니티 토론 깊이, 사용량 telemetry 같은 지표가 실사용과 더 가깝다고 느낌
나는 결국 코드를 그냥 읽어봄. 그게 제일 직접적이라고 느낌
많은 사람이 stars를 "믿을 만하고 품질 좋고 많은 사람이 보는 소프트웨어"의 싸고 빠른 대리 지표로 기대하는 것 같음. 하지만 내 생각엔 proxy로서 완전히 실패함. astroturfing을 빼더라도 stars는 인기나 품질을 보장하지 않음. 기본적인 시스템 라이브러리 중엔 stars가 적은 것도 많을 거라고 봄. 코드 자체를 읽을 수 있는데 굳이 stars에 의존하는 건 무의미하게 느껴짐. 그래서 나는 stars를 건너뛰고 저장소를 훑어보며 아키텍처와 구현을 직접 평가하는 습관을 들이고 있고, 그렇게 보면 stars가 적은 대안이 더 낫다고 느낀 적이 꽤 많음
대안이 3개인데 각각 10만 LOC라면, 코드를 읽자는 말이 현실적으로 쉽지 않다고 봄. 결국 대리 지표가 필요함. stars는 신뢰할 수 없어서 별로지만, 추천이나 referral 같은 게 더 나음. 다만 내 네트워크에 지식이 없는 영역에서는 stars 같은 약한 proxy라도 쓰게 되는 현실이 있음
예전에는 이슈 페이지가 실사용 흔적을 보는 데 꽤 좋았음. 사람들이 어떤 문제를 겪는지 보였기 때문임. 지금도 가끔 유효하지만 agent 쓰레기들이 많아져서 예전만 못함
GitHub가 raw stars 대신 PageRank 같은 그래프 기반 점수를 쓰면 어떨까 싶음. 중요한 저장소를 운영하는 사용자가 stars나 fork를 했을수록 해당 저장소 점수를 높게 주는 방식임. 계산 비용은 더 들겠지만, 내가 놓친 게 없다면 지금보다는 훨씬 신뢰할 만한 결과가 나올 것 같음
그 접근이 더 나은 결과에 가까워 보이긴 함. 다만 모든 사용자를 열로 넣는 구조라면 여전히 게임 가능성이 있다고 봄. 차라리 trusted peers나 친구의 친구 같은 제한된 집합을 쓰거나, 단순한 좋아요 기반 대신 사후적 신호를 쓰는 편이 더 낫다고 느낌
진짜 궁금한 건 VC가 왜 star 시스템을 신뢰 가능한 것으로 보는가임. stars를 누른 사용자는 곧 프로젝트를 잊는 경우가 많아서, 유지보수가 안 되는 낡은 프로젝트도 stars만 많을 수 있음. 최선은 아니어도 그보다는 이슈가 얼마나 살아 있는지, 열리고 닫히는지, 자동 종료가 아닌지, 응답 속도는 어떤지를 보는 편이 낫다고 봄. 내 프로젝트는 stars가 200개지만, 단순 버전 올리기 말고 의미 있는 업데이트를 꾸준히 하려면 정말 고생이 큼
stars는 목표가 된 지표라서 더 이상 좋은 척도가 아니게 된 전형적 사례라고 봄. 그리고 이슈 활동 같은 다른 지표도 LLM 시대에는 열고 닫고 답하는 식으로 쉽게 조작될 수 있다고 느낌
VC가 수천 stars를 원한다는 식의 이야기는 너무 큰 그림일 수 있다고 봄. 실제로는 누군가가 20달러 내고 자기 프로젝트를 그럴듯하게 보여서 이력서나 vanity에 쓰거나, Reddit 클릭을 더 받고, 다른 오픈소스보다 눈에 띄려는 경우가 더 흔할 것 같음. 만약 누가 stars 8천, 1만만 보고 프로젝트나 매출 가능성도 안 보고 투자한다면, 정말 무지한 투자자이거나 여름마다 학생 프로젝트 하나씩 뽑는 수준이라고 생각함. 가짜 계정들은 내 오래된 저장소에도 stars를 찍어 진짜 사용자처럼 보이려 하고, 한 달에 5천 프로젝트에 star를 찍고 다른 활동은 없는 식이라 금방 티가 남. 예전엔 GitHub Sponsor 링도 봤는데, 자금세탁이나 도난 카드 같은 냄새가 강했음
내가 찾는 건 장기적인 소프트웨어 품질 신호지만, VC가 찾는 건 단기적인 급상승 momentum 신호라고 봄. 둘은 자주 서로 충돌함
여기에도 pagerank 비슷한 그래프 점수가 어느 정도는 통할 수 있다고 봄. 평판 좋은 사용자가 남긴 이슈가 많은 저장소에 더 점수를 주면, 단순한 조작에는 조금 더 강해질 수 있음
지난 3년 사이 크게 바뀌지 않았다면, 이 기사는 VC가 stars를 얼마나 믿는지 다소 과장했다고 느낌. 내가 10년 전 VC들과 얘기했을 때도, 대부분은 이미 stars를 허영 지표로 보고 버린 상태였음
GitHub는 이 문제를 아주 쉽게 단속할 수 있다고 봄. star 판매업자마다 10달러씩만 써서 직접 구매해보고, 거기에 연루된 계정을 전부 정지하면 됨. 아주 적은 돈으로도 이 생태계 전체에 큰 마찰을 줄 수 있을 것 같음
관련 자료로는 Dagster의 2023년 글인 "Tracking the Fake GitHub Star Black Market with Dagster, dbt and BigQuery"와, arXiv 논문인 "Six Million (Suspected) Fake Stars in GitHub: A Growing Spiral of Popularity Contests, Spams, and Malware"가 참고할 만함
Hacker News 의견들