Hacker News 의견들
  • 2015년에 남긴 내 댓글이 이렇게 다시 주목받을 줄이야
    예전 댓글 링크를 보며 약간의 자부심을 느끼는 중임

  • 코드가 스레드를 평가용으로 보낼 때 사용자 이름을 익명화하지 않는 점이 문제로 보임
    이로 인해 특정 사용자의 평판이 점수에 편향을 줄 가능성이 큼
    무작위로 사용자명을 재할당하거나, 절차적으로 생성된 가명을 써서 편향을 줄이는 실험이 흥미로울 것 같음
    또, Gemini API처럼 출처를 인용하는 모델을 쓰면 평가의 신뢰도를 높일 수 있을 것 같음

  • 옛날 댓글들을 다시 읽는 게 정말 재미있음
    예전에 토론이 어떻게 전개됐는지 보기 위해 리플레이 시스템을 직접 만들었음
    Karpathy의 평가 글 목록을 시각화한 예시로 몇 가지 링크를 공유함

  • 각 사용자 이름 옆에 현실과의 일치도 점수를 보여주는 Chrome 확장 프로그램이 있으면 좋겠음
    누가 실제로 맞는 예측을 했는지, 혹은 틀렸는지를 점수로 보는 거임
    나아가, 사용자가 정확한 댓글에 준 업보트의 비율로 가중치를 주면 더 공정한 랭킹이 될 것 같음

    • Reddit Enhancement Suite가 비슷한 기능을 간접적으로 제공함
      내가 자주 업보트한 사용자를 추적해서, “이 사람은 믿을 만하다”는 기준으로 삼음
      완전히 주관적이지만 투명성은 있음
    • 이런 점수 시스템을 확장하면 “이 사람은 도덕적 신념이 없다” 같은 점수도 만들 수 있을 것 같음
      이런 시스템은 커뮤니티를 더 작고 친밀하게 만들 수도 있음
    • Elon이 Twitter를 사기 전, 기자들의 디지털 신뢰도 추적 시스템(Pravda) 을 만들려 했던 게 떠오름
      실제로도 우리는 친구나 기자의 신뢰도를 기억하며 살아감
    • 주식 커뮤니티에서도 비슷한 아이디어를 생각해봤음
      WSB나 Twitter에서 주식 예측을 하는 사람들의 정확도를 순위화하는 것임
      다만 일반 댓글의 경우, “무엇이 예측인지” 정의하기가 훨씬 어려움
    • “정확한 댓글”의 정의가 불분명함
      “내일 해가 뜬다” 같은 말이 최고 점수를 받을 수도 있지만, 그런 건 의미가 없음
  • “pcwalton, 간다!”라고 농담했지만, 실제로는 스레드 단위 평가가 다소 무작위로 보임
    이 스레드는 예측력이 뛰어났는데, 댓글은 11개뿐이고 내 건 한 줄짜리임
    그래도 내 스타트업 지분 접근성 관련 의견이 상위권에 오른 건 기분 좋음

    • 내 댓글이 평가된 걸 보고 놀랐음
      시스템이 “예측”을 정의하는 방식이 꽤 주관적
      나는 오히려 예측을 피하려고 했는데, 그게 예측으로 간주된 것 같음
  • 트릴리언 타마고치” 비전이 실현되지 않았다는 평가를 받아서, 내 낮은 점수를 겸허히 받아들임

  • 이 프로젝트를 보며 느낀 건, 결국 지루한 의견이 가장 정확하다는 점임
    자극적이고 확신에 찬 댓글일수록 시간이 지나면 틀릴 확률이 높음
    예를 들어 “리튬이온 배터리 가격이 $108/kWh로 하락” 같은 건 꾸준한 비용 곡선 예측으로 매우 신뢰할 만함
    반면 “LLM이 정신건강 분야에서 실패” 같은 헤드라인은 금세 바뀌는 벤치마크에 의존함
    결국 “지루하지만 옳은” 의견을 미리 찾아내는 방법이 있으면 좋겠음

    • “지루하지만 옳은” 건 이미 세상에 반영된 예측이라서 점수를 주기 어렵다는 의견임
    • “2035년에 1+1=2” 같은 농담으로, 너무 자명한 예측의 무의미함을 풍자함
    • “LLM과 정신건강”은 예측이 아니라 현재의 뉴스임
      하지만 AI의 꾸준한 발전이 결국 인간의 경제적 역할을 무너뜨릴 수도 있다는 점에서, 오히려 무섭게 정확한 예측일 수도 있음
    • 알고리즘 피드가 참여도 기반으로 작동하기 때문에, 자극적인 콘텐츠가 보상을 받음
      그래서 지루하고 신중한 의견은 묻히기 쉬움
    • 예측을 평가할 때는 당시의 불확실성을 가중치로 반영해야 함
      예측 시장처럼, 당시 확률 대비 얼마나 차이를 냈는지를 점수화하는 방식이 필요함
  • Gmail이 90% 찼다는 경고를 받고, 주말 동안 이메일 분석 프로젝트를 진행했음
    6만5천 통 이상을 분류했는데 절반 이상이 쓰레기였음
    원래는 불필요한 메일을 지우려 했지만, 요즘은 오히려 개인적이고 가치 있는 메일을 삭제하고
    구글에는 뉴스레터나 영수증 같은 쓸모없는 데이터만 남기는 게 더 안전하다는 생각이 듦

  • 나는 종종 LLM으로 HN 댓글을 요약함
    원문보다 통찰력 있는 요약이 나올 때가 많아서, 완전히 게임 체인저라고 생각함

  • 작성자가 품질 검사를 통과했다고 생각한 게 놀라움
    LLM의 평가는 대부분 엉터리로 보임
    실제 사이트의 리뷰를 보면, 모델이 “예측이 맞았는가”가 아니라 “동의하는가”를 기준으로 평가한 듯함
    결국 순응적인 의견이 높은 점수를 받는 구조임

    • 예시로, tptacek의 DF 관련 댓글이 ‘A’를 받았는데,
      LLM 리뷰
      “게임의 가혹한 특성을 잘 묘사했다”고 평가함
      하지만 이는 미래 예측이 아니라 당시의 현재 묘사에 불과함
      게다가 실제로는 반대 의미일 수도 있음
      이런 사례가 상위권에 있다는 건 평가 기준이 엉망임을 보여줌
    • 하지만 각 리뷰의 세 번째 섹션에는 “가장 통찰력 있는”과 “가장 틀린” 댓글이 따로 있음
      예를 들어 Kickstarter is Debt 글의 경우,
      Oculus와 Pebble의 미래를 비교한 예측이 정확히 맞았다고 평가되어 있음
      이런 부분은 꽤 정확하고 유용한 분석으로 보임
    • LLM 평가가 전반적으로 부정확하고 일관성 없음
      지시를 무시하고, 자기 의견을 섞으며, 보정도 안 되어 있음
      “좋은” LLM 심사 시스템은 단순한 이진 판단(맞음/틀림) 을 여러 개 합산하는 식으로 작동해야 함
      이번 프로젝트는 재미로 보기엔 괜찮지만, 실제 평가 도구로는 부적합하다고 생각함