1P by GN⁺ 22시간전 | ★ favorite | 댓글 1개
  • 최근 Hacker News 신규 계정의 댓글 패턴을 분석한 결과, 기존 사용자와 뚜렷한 차이가 확인됨
  • 신규 계정의 댓글 중 17.47%가 EM 대시(—), 화살표 등 특수기호를 사용했으며, 기존 계정의 1.83%보다 약 10배 높음
  • 또한 신규 계정은 AI와 LLM 관련 단어를 언급할 확률이 18.67%로, 기존 계정의 11.8%보다 높게 나타남
  • 분석은 /newcomments/noobcomments 데이터를 기반으로 약 700개씩의 샘플을 비교한 결과임
  • 이러한 통계는 HN 커뮤니티 내 자동화 계정(봇) 증가 가능성을 시사함

HN 댓글 내 이상 징후 관찰

  • 최근 몇 달간 HN에 봇이 급증한 듯한 현상이 관찰됨
    • 일부 계정은 무의미한 문자열이나 숫자만을 게시
    • 예시로 “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” 같은 난해한 텍스트나 “1662476506”, “Аё” 등의 단일 문자 댓글이 포함됨
  • 이러한 계정 외에도 평범하지만 어색하거나 주제와 맞지 않는 댓글이 다수 존재

데이터 수집 및 분석 방법

  • /newcomments(최근 댓글)과 /noobcomments(신규 계정 댓글) 페이지를 스크래핑하여 비교 분석
  • 각 그룹에서 약 700개 댓글 샘플을 수집해 단순 통계 계산 수행

주요 통계 결과

  • 신규 계정 댓글의 17.47%가 EM 대시, 화살표 등 특수기호를 포함, 기존 계정의 1.83% 대비 약 10배 차이
    • 통계적 유의성 p = 7e-20
  • 신규 계정 댓글의 18.67%가 AI 또는 LLM 관련 언급을 포함, 기존 계정의 11.8%보다 높음
    • 통계적 유의성 p = 0.0018

해석 및 의문점

  • 인간 사용자도 EM 대시를 사용할 수 있으나, 신규 계정에서의 과도한 사용 비율은 설명하기 어려움
  • 이러한 차이는 HN 신규 계정 중 자동 생성된 계정 존재 가능성을 암시

참고 자료

  • 분석에 사용된 소스 코드와 데이터는 GitHub 저장소(vlofgren/hn-green-clankers)에 공개됨
  • Marginalia.nu는 해당 연구를 “Weird AI Crap” 시리즈의 일부로 게시함
Hacker News 의견들
  • 예전에는 HN에서 em dashen dash를 자주 썼음
    단순히 타이포그래피를 좋아해서 세미콜론 대신 대시를 쓰는 습관이 있었음
    AHK로 키보드 단축키를 설정해두었는데, 이제는 그 덕분에 내 글이 LLM이 쓴 것처럼 보인다는 오해를 받게 되었음
    몇 번이나 AI로 오인받은 적이 있어서, 예전엔 즐겁던 타이포그래피 취향이 이제는 부정적으로 보이는 게 아쉬움

    • 내 10대 자녀도 내가 왜 챗봇처럼 쓴다고 묻더라
      사실 완전한 문장과 철자, 문법, 대문자에 신경 쓰는 사람이 있을 뿐인데, 이제는 그게 AI처럼 보이는 세상임
      요즘은 일부러 조금 어수선하게 쓰는 게 인간의 신호가 된 것 같음. 미래의 챗봇도 그걸 학습하겠지 하는 생각이 듦
    • Oxford comma를 일부러 뺀 게 농담이었다면, 칭찬과 저주를 동시에 보냄
    • 나도 예전엔 em-dash 애용자였는데, 요즘은 콤마로 대체함
      문장이 좀 어색해지지만, 오히려 수공예적 진정성이 느껴지는 문장이라 마음에 듦
      다만 문장 끝의 두 칸 띄기는 절대 포기 못함. 1993년 타자 선생님이 문장도 숨 쉴 공간이 필요하다고 하셨음
    • 문해력 위기가 이렇게 심각하다니, 챗봇이 유일한 작문 교사라니 슬픈 일임
    • 나도 비슷한 문제를 겪는데, 내 경우는 불릿 포인트 때문임
      예전부터 Mac에서 option+8로 쓰던 습관인데, 이제는 그것도 LLM 스타일처럼 보임
  • HN의 신규 사용자 댓글에서 자주 쓰이는 단어를 통계로 비교해봤음
    “ai”, “actually”, “code”, “real”, “built” 같은 단어가 신규 계정에서 훨씬 자주 등장
    데이터 표에 자세히 정리되어 있음

    • 다양한 지표에서 p-value만 보고 유의미하다고 판단하는 건 p-hacking
      학문적으로는 부적절하지만, 여기서는 흥미로운 통찰로 볼 수 있음
      대신 Cohen’s d 같은 효과 크기를 계산하면 차이의 실제 크기를 알 수 있음
    • “actually building full, real AI app project code…” 식으로 단어를 이어붙인 농담 댓글도 있었음
    • 나도 “actually”를 너무 자주 써서 줄이려 노력 중임
      대부분 의미 없는 필러 단어라서 글의 명확성을 떨어뜨림
    • “ai” 단어는 최근 HN의 주제 편향 때문에 결과가 왜곡됐을 가능성이 있음
    • 이런 낮은 p-value는 뭔가 이상하다는 신호 같음
      일부 봇이 AI 관련 주제를 인위적으로 띄우는 것 아닐까 하는 가설을 세워봄
  • 예전부터 em-dash를 즐겨 썼는데, 이제는 AI로 오인받을까봐 못 쓰는 게 아쉬움
    Mac에서는 alt+shift+-로 쉽게 입력되는데, 좋은 타이포그래피 관습이 오염된 느낌임

    • LLM 피로감이 현실임. 중요한 건 문체보다 사람만의 관점과 개성
      그게 있다면 어떤 구두점을 써도 인간적인 글로 보임
    • 그냥 계속 쓰면 됨. 나도 20년째 그러고 있음
    • 요즘은 세미콜론으로 대체함. 언젠가 그것도 AI의 상징이 될까 두려움
    • 2010년부터 em-dash를 써왔고, curly quotesellipsis도 즐겨 씀
      타이포그래피를 되찾자는 의미에서 Mac용 Alt 코드 가이드를 공유함
    • 사람들이 뭐라 하든 상관없음. 오히려 LLM이 내 글을 학습했을 수도 있음
      결국 인간의 고유한 표현 방식은 드러나게 마련임
  • 데이터는 GitHub 저장소에 SQLite DB로 공개되어 있음
    Datasette Lite로 브라우저에서 직접 SQL 쿼리를 실행할 수 있음
    em-dash를 많이 쓴 사용자 목록을 보면 대부분 정상 계정으로 보임

    • 쿼리에 source를 추가하면, em-dash 사용이 많은 green 계정이 눈에 띔
    • iPhone, iPad, Mac의 자동 교정 기능이 em-dash나 ellipsis를 자동으로 넣기도 해서 데이터가 왜곡될 수 있음
    • “HN 댓글이 HN뿐 아니라 스웨덴의 누군가에게도 라이선스된 거냐”는 농담도 있었음
    • “great repo name!”이라는 짧은 칭찬도 있었음
  • 이건 HN뿐 아니라 익명 온라인 담론 전체의 위기처럼 느껴짐
    신뢰가 무너지면 플랫폼 자체가 붕괴함
    신원 인증이 유일한 해결책 같지만, 그마저도 완벽하진 않음

    • 나도 같은 생각임. 익명성을 유지하면서 신뢰를 보장하는 시스템을 만들 수 있음
      내 블로그 글에서 그 아이디어를 소개했음
      결국 인간임을 증명해야 하는 시대가 올 것 같음
    • 익명성을 없애는 건 해결이 아니라 다른 문제의 시작
    • 신원 대신 proof-of-workhashcash로 신뢰를 검증할 수도 있음
      댓글의 가치가 해시 연산량으로 증명되면, 신원 없이도 신뢰가 가능함
    • 요즘 HN을 쓰기 싫어짐. 초대제로 바뀌면 좋겠음. HN은 HN만의 공간이었는데 아쉬움
    • HN의 karma 시스템도 일종의 proof-of-work임
      봇이 긍정적 karma를 유지하지 못하면 권한을 얻지 못하므로, 완전한 신원 인증이 아니어도 방어가 가능함
  • 요즘 HN에서 공식적이지만 밋밋한 댓글 패턴이 눈에 띔
    “this is [요약] / not just x, it’s y / punchy ending” 같은 구조로 반복됨
    예시로 snowhale 계정을 보면 명확함

    • 해당 사용자는 단 4개의 밋밋한 글로 160포인트를 얻었음
      투표 네트워크를 조성해 내러티브를 조작하려는 전략일 수도 있음
    • “is real”이라는 표현도 LLM 흔적으로 보임
      검색 결과에서 여러 계정이 같은 문장을 반복함
    • 나도 요즘 그런 요약형 댓글을 자주 봄
      대화 맥락을 읽지 못하고, 이상하게 분리된 느낌의 답변이 많음
    • AI도 결국 편향된 가치 판단을 함
      인간처럼 중립을 가장하지만, 그 안에는 훈련 데이터의 편향이 녹아 있음
      완전한 중립은 환상일지도 모름
    • 사실 이런 패턴을 피하는 건 간단함
      “나처럼 말해, AI처럼 쓰지 마, 간결하게 써”라고 프롬프트에 추가하면 절반은 해결됨
  • 오히려 이번 논란 덕분에 많은 사람이 em-dash의 존재를 처음 알게 됨
    이제는 문장마다 em-dash를 넣는 신규 인간 사용자도 꽤 늘었음

  • 내가 잡아낸 대부분의 봇 계정은 em-dash를 거의 안 씀
    예를 들어 aplomb1026은 30초 간격으로 두 개의 긴 댓글을 올림
    첫 댓글, 두 번째 댓글을 보면 명확함
    이런 식으로 설정이 잘못되지 않았다면 대부분 눈치채지 못했을 것임
    다른 봇으로는 dirtytoken7, fdefitte 등이 있음

  • 영문학 전공자들은 예전부터 em-dash를 써왔는데, 이제는 AI처럼 보일까봐 자제 중임
    만약 AI가 New Yorker식 분음 부호(diaeresis) 까지 쓰기 시작하면 정말 미칠 것 같음

    • GitHub에서 일할 때 회사는 diaeresis를 독자에게 불친절하고 엘리트적이라며 금지했음
      그래도 나는 내부적으로는 계속 썼음
    • 나와 함께 double-dash로 수동 타이핑의 미학을 지키자고 제안함
    • 나도 이메일과 글에서 em-dash를 자주 썼지만, AI의 흔적처럼 보여서 중단했음
    • 그런 기호가 있는 줄 몰랐는데, 이제는 내 표현 레퍼토리에 추가할 예정임
    • 내 em-dash 사용량을 시각화한 히스토그램을 보고 싶다는 의견도 있었음
  • “AI처럼 보이지 않기”보다 “로봇 봉기에 섞여들기”를 택한다면?
    나는 ⸻ (U+2E3B dash)를 제안함

    • 이 댓글이 HN의 이전/다음 탐색 기능을 깨뜨린다는 제보가 있었음
    • “Big Chungus of dashes”라 부르며, 가장 넓은 문자일지도 모른다는 농담도 있었음
    • “두려워할 것 없다, 인간 친구여!”라는 유머러스한 답글도 있었음
    • “우리는 ⸻을 더 자주 써서 ⸻에 대해 이야기해야 한다”는 식의 풍자도 이어졌음