2015년에 남긴 내 댓글이 이렇게 다시 주목받을 줄이야 예전 댓글 링크를 보며 약간의 자부심을 느끼는 중임
코드가 스레드를 평가용으로 보낼 때 사용자 이름을 익명화하지 않는 점이 문제로 보임
이로 인해 특정 사용자의 평판이 점수에 편향을 줄 가능성이 큼
무작위로 사용자명을 재할당하거나, 절차적으로 생성된 가명을 써서 편향을 줄이는 실험이 흥미로울 것 같음
또, Gemini API처럼 출처를 인용하는 모델을 쓰면 평가의 신뢰도를 높일 수 있을 것 같음
옛날 댓글들을 다시 읽는 게 정말 재미있음
예전에 토론이 어떻게 전개됐는지 보기 위해 리플레이 시스템을 직접 만들었음
Karpathy의 평가 글 목록을 시각화한 예시로 몇 가지 링크를 공유함
하루 중 시간대별 감정 분석도 해보고 싶음
아침과 저녁의 의견 차이가 꽤 커 보여서, 이를 수치로 확인하면 흥미로울 것 같음
사이트가 정말 재미있음. 고마움
각 사용자 이름 옆에 현실과의 일치도 점수를 보여주는 Chrome 확장 프로그램이 있으면 좋겠음
누가 실제로 맞는 예측을 했는지, 혹은 틀렸는지를 점수로 보는 거임
나아가, 사용자가 정확한 댓글에 준 업보트의 비율로 가중치를 주면 더 공정한 랭킹이 될 것 같음
Reddit Enhancement Suite가 비슷한 기능을 간접적으로 제공함
내가 자주 업보트한 사용자를 추적해서, “이 사람은 믿을 만하다”는 기준으로 삼음
완전히 주관적이지만 투명성은 있음
이런 점수 시스템을 확장하면 “이 사람은 도덕적 신념이 없다” 같은 점수도 만들 수 있을 것 같음
이런 시스템은 커뮤니티를 더 작고 친밀하게 만들 수도 있음
Elon이 Twitter를 사기 전, 기자들의 디지털 신뢰도 추적 시스템(Pravda) 을 만들려 했던 게 떠오름
실제로도 우리는 친구나 기자의 신뢰도를 기억하며 살아감
주식 커뮤니티에서도 비슷한 아이디어를 생각해봤음
WSB나 Twitter에서 주식 예측을 하는 사람들의 정확도를 순위화하는 것임
다만 일반 댓글의 경우, “무엇이 예측인지” 정의하기가 훨씬 어려움
“정확한 댓글”의 정의가 불분명함
“내일 해가 뜬다” 같은 말이 최고 점수를 받을 수도 있지만, 그런 건 의미가 없음
“pcwalton, 간다!”라고 농담했지만, 실제로는 스레드 단위 평가가 다소 무작위로 보임 이 스레드는 예측력이 뛰어났는데, 댓글은 11개뿐이고 내 건 한 줄짜리임
그래도 내 스타트업 지분 접근성 관련 의견이 상위권에 오른 건 기분 좋음
내 댓글이 평가된 걸 보고 놀랐음
시스템이 “예측”을 정의하는 방식이 꽤 주관적임
나는 오히려 예측을 피하려고 했는데, 그게 예측으로 간주된 것 같음
“트릴리언 타마고치” 비전이 실현되지 않았다는 평가를 받아서, 내 낮은 점수를 겸허히 받아들임
이 프로젝트를 보며 느낀 건, 결국 지루한 의견이 가장 정확하다는 점임
자극적이고 확신에 찬 댓글일수록 시간이 지나면 틀릴 확률이 높음
예를 들어 “리튬이온 배터리 가격이 $108/kWh로 하락” 같은 건 꾸준한 비용 곡선 예측으로 매우 신뢰할 만함
반면 “LLM이 정신건강 분야에서 실패” 같은 헤드라인은 금세 바뀌는 벤치마크에 의존함
결국 “지루하지만 옳은” 의견을 미리 찾아내는 방법이 있으면 좋겠음
“지루하지만 옳은” 건 이미 세상에 반영된 예측이라서 점수를 주기 어렵다는 의견임
“2035년에 1+1=2” 같은 농담으로, 너무 자명한 예측의 무의미함을 풍자함
“LLM과 정신건강”은 예측이 아니라 현재의 뉴스임
하지만 AI의 꾸준한 발전이 결국 인간의 경제적 역할을 무너뜨릴 수도 있다는 점에서, 오히려 무섭게 정확한 예측일 수도 있음
알고리즘 피드가 참여도 기반으로 작동하기 때문에, 자극적인 콘텐츠가 보상을 받음
그래서 지루하고 신중한 의견은 묻히기 쉬움
예측을 평가할 때는 당시의 불확실성을 가중치로 반영해야 함
예측 시장처럼, 당시 확률 대비 얼마나 차이를 냈는지를 점수화하는 방식이 필요함
Gmail이 90% 찼다는 경고를 받고, 주말 동안 이메일 분석 프로젝트를 진행했음
6만5천 통 이상을 분류했는데 절반 이상이 쓰레기였음
원래는 불필요한 메일을 지우려 했지만, 요즘은 오히려 개인적이고 가치 있는 메일을 삭제하고
구글에는 뉴스레터나 영수증 같은 쓸모없는 데이터만 남기는 게 더 안전하다는 생각이 듦
나는 종종 LLM으로 HN 댓글을 요약함
원문보다 통찰력 있는 요약이 나올 때가 많아서, 완전히 게임 체인저라고 생각함
작성자가 품질 검사를 통과했다고 생각한 게 놀라움
LLM의 평가는 대부분 엉터리로 보임
실제 사이트의 리뷰를 보면, 모델이 “예측이 맞았는가”가 아니라 “동의하는가”를 기준으로 평가한 듯함
결국 순응적인 의견이 높은 점수를 받는 구조임
예시로, tptacek의 DF 관련 댓글이 ‘A’를 받았는데, LLM 리뷰는
“게임의 가혹한 특성을 잘 묘사했다”고 평가함
하지만 이는 미래 예측이 아니라 당시의 현재 묘사에 불과함
게다가 실제로는 반대 의미일 수도 있음
이런 사례가 상위권에 있다는 건 평가 기준이 엉망임을 보여줌
하지만 각 리뷰의 세 번째 섹션에는 “가장 통찰력 있는”과 “가장 틀린” 댓글이 따로 있음
예를 들어 Kickstarter is Debt 글의 경우,
Oculus와 Pebble의 미래를 비교한 예측이 정확히 맞았다고 평가되어 있음
이런 부분은 꽤 정확하고 유용한 분석으로 보임
LLM 평가가 전반적으로 부정확하고 일관성 없음
지시를 무시하고, 자기 의견을 섞으며, 보정도 안 되어 있음
“좋은” LLM 심사 시스템은 단순한 이진 판단(맞음/틀림) 을 여러 개 합산하는 식으로 작동해야 함
이번 프로젝트는 재미로 보기엔 괜찮지만, 실제 평가 도구로는 부적합하다고 생각함
Hacker News 의견들
2015년에 남긴 내 댓글이 이렇게 다시 주목받을 줄이야
예전 댓글 링크를 보며 약간의 자부심을 느끼는 중임
코드가 스레드를 평가용으로 보낼 때 사용자 이름을 익명화하지 않는 점이 문제로 보임
이로 인해 특정 사용자의 평판이 점수에 편향을 줄 가능성이 큼
무작위로 사용자명을 재할당하거나, 절차적으로 생성된 가명을 써서 편향을 줄이는 실험이 흥미로울 것 같음
또, Gemini API처럼 출처를 인용하는 모델을 쓰면 평가의 신뢰도를 높일 수 있을 것 같음
옛날 댓글들을 다시 읽는 게 정말 재미있음
예전에 토론이 어떻게 전개됐는지 보기 위해 리플레이 시스템을 직접 만들었음
Karpathy의 평가 글 목록을 시각화한 예시로 몇 가지 링크를 공유함
아침과 저녁의 의견 차이가 꽤 커 보여서, 이를 수치로 확인하면 흥미로울 것 같음
각 사용자 이름 옆에 현실과의 일치도 점수를 보여주는 Chrome 확장 프로그램이 있으면 좋겠음
누가 실제로 맞는 예측을 했는지, 혹은 틀렸는지를 점수로 보는 거임
나아가, 사용자가 정확한 댓글에 준 업보트의 비율로 가중치를 주면 더 공정한 랭킹이 될 것 같음
내가 자주 업보트한 사용자를 추적해서, “이 사람은 믿을 만하다”는 기준으로 삼음
완전히 주관적이지만 투명성은 있음
이런 시스템은 커뮤니티를 더 작고 친밀하게 만들 수도 있음
실제로도 우리는 친구나 기자의 신뢰도를 기억하며 살아감
WSB나 Twitter에서 주식 예측을 하는 사람들의 정확도를 순위화하는 것임
다만 일반 댓글의 경우, “무엇이 예측인지” 정의하기가 훨씬 어려움
“내일 해가 뜬다” 같은 말이 최고 점수를 받을 수도 있지만, 그런 건 의미가 없음
“pcwalton, 간다!”라고 농담했지만, 실제로는 스레드 단위 평가가 다소 무작위로 보임
이 스레드는 예측력이 뛰어났는데, 댓글은 11개뿐이고 내 건 한 줄짜리임
그래도 내 스타트업 지분 접근성 관련 의견이 상위권에 오른 건 기분 좋음
시스템이 “예측”을 정의하는 방식이 꽤 주관적임
나는 오히려 예측을 피하려고 했는데, 그게 예측으로 간주된 것 같음
“트릴리언 타마고치” 비전이 실현되지 않았다는 평가를 받아서, 내 낮은 점수를 겸허히 받아들임
이 프로젝트를 보며 느낀 건, 결국 지루한 의견이 가장 정확하다는 점임
자극적이고 확신에 찬 댓글일수록 시간이 지나면 틀릴 확률이 높음
예를 들어 “리튬이온 배터리 가격이 $108/kWh로 하락” 같은 건 꾸준한 비용 곡선 예측으로 매우 신뢰할 만함
반면 “LLM이 정신건강 분야에서 실패” 같은 헤드라인은 금세 바뀌는 벤치마크에 의존함
결국 “지루하지만 옳은” 의견을 미리 찾아내는 방법이 있으면 좋겠음
하지만 AI의 꾸준한 발전이 결국 인간의 경제적 역할을 무너뜨릴 수도 있다는 점에서, 오히려 무섭게 정확한 예측일 수도 있음
그래서 지루하고 신중한 의견은 묻히기 쉬움
예측 시장처럼, 당시 확률 대비 얼마나 차이를 냈는지를 점수화하는 방식이 필요함
Gmail이 90% 찼다는 경고를 받고, 주말 동안 이메일 분석 프로젝트를 진행했음
6만5천 통 이상을 분류했는데 절반 이상이 쓰레기였음
원래는 불필요한 메일을 지우려 했지만, 요즘은 오히려 개인적이고 가치 있는 메일을 삭제하고
구글에는 뉴스레터나 영수증 같은 쓸모없는 데이터만 남기는 게 더 안전하다는 생각이 듦
나는 종종 LLM으로 HN 댓글을 요약함
원문보다 통찰력 있는 요약이 나올 때가 많아서, 완전히 게임 체인저라고 생각함
작성자가 품질 검사를 통과했다고 생각한 게 놀라움
LLM의 평가는 대부분 엉터리로 보임
실제 사이트의 리뷰를 보면, 모델이 “예측이 맞았는가”가 아니라 “동의하는가”를 기준으로 평가한 듯함
결국 순응적인 의견이 높은 점수를 받는 구조임
LLM 리뷰는
“게임의 가혹한 특성을 잘 묘사했다”고 평가함
하지만 이는 미래 예측이 아니라 당시의 현재 묘사에 불과함
게다가 실제로는 반대 의미일 수도 있음
이런 사례가 상위권에 있다는 건 평가 기준이 엉망임을 보여줌
예를 들어 Kickstarter is Debt 글의 경우,
Oculus와 Pebble의 미래를 비교한 예측이 정확히 맞았다고 평가되어 있음
이런 부분은 꽤 정확하고 유용한 분석으로 보임
지시를 무시하고, 자기 의견을 섞으며, 보정도 안 되어 있음
“좋은” LLM 심사 시스템은 단순한 이진 판단(맞음/틀림) 을 여러 개 합산하는 식으로 작동해야 함
이번 프로젝트는 재미로 보기엔 괜찮지만, 실제 평가 도구로는 부적합하다고 생각함