HN 신규 계정이 EM 대시를 사용할 확률이 10배 높음

(marginalia.nu)

1P by GN⁺ 5달전 | ★ favorite | 댓글 1개

최근 Hacker News 신규 계정의 댓글 패턴을 분석한 결과, 기존 사용자와 뚜렷한 차이가 확인됨
신규 계정의 댓글 중 17.47%가 EM 대시(—), 화살표 등 특수기호를 사용했으며, 기존 계정의 1.83%보다 약 10배 높음
또한 신규 계정은 AI와 LLM 관련 단어를 언급할 확률이 18.67%로, 기존 계정의 11.8%보다 높게 나타남
분석은 /newcomments와 /noobcomments 데이터를 기반으로 약 700개씩의 샘플을 비교한 결과임
이러한 통계는 HN 커뮤니티 내 자동화 계정(봇) 증가 가능성을 시사함

HN 댓글 내 이상 징후 관찰

최근 몇 달간 HN에 봇이 급증한 듯한 현상이 관찰됨
- 일부 계정은 무의미한 문자열이나 숫자만을 게시
- 예시로 “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” 같은 난해한 텍스트나 “1662476506”, “Аё” 등의 단일 문자 댓글이 포함됨
이러한 계정 외에도 평범하지만 어색하거나 주제와 맞지 않는 댓글이 다수 존재

데이터 수집 및 분석 방법

/newcomments(최근 댓글)과 /noobcomments(신규 계정 댓글) 페이지를 스크래핑하여 비교 분석
각 그룹에서 약 700개 댓글 샘플을 수집해 단순 통계 계산 수행

주요 통계 결과

신규 계정 댓글의 17.47%가 EM 대시, 화살표 등 특수기호를 포함, 기존 계정의 1.83% 대비 약 10배 차이
- 통계적 유의성 p = 7e-20
신규 계정 댓글의 18.67%가 AI 또는 LLM 관련 언급을 포함, 기존 계정의 11.8%보다 높음
- 통계적 유의성 p = 0.0018

해석 및 의문점

인간 사용자도 EM 대시를 사용할 수 있으나, 신규 계정에서의 과도한 사용 비율은 설명하기 어려움
이러한 차이는 HN 신규 계정 중 자동 생성된 계정 존재 가능성을 암시

참고 자료

분석에 사용된 소스 코드와 데이터는 GitHub 저장소(vlofgren/hn-green-clankers)에 공개됨
Marginalia.nu는 해당 연구를 “Weird AI Crap” 시리즈의 일부로 게시함

GN⁺ 5달전 [-]

Hacker News 의견들

예전에는 HN에서 em dash와 en dash를 자주 썼음
단순히 타이포그래피를 좋아해서 세미콜론 대신 대시를 쓰는 습관이 있었음
AHK로 키보드 단축키를 설정해두었는데, 이제는 그 덕분에 내 글이 LLM이 쓴 것처럼 보인다는 오해를 받게 되었음
몇 번이나 AI로 오인받은 적이 있어서, 예전엔 즐겁던 타이포그래피 취향이 이제는 부정적으로 보이는 게 아쉬움
- 내 10대 자녀도 내가 왜 챗봇처럼 쓴다고 묻더라
  사실 완전한 문장과 철자, 문법, 대문자에 신경 쓰는 사람이 있을 뿐인데, 이제는 그게 AI처럼 보이는 세상임
  요즘은 일부러 조금 어수선하게 쓰는 게 인간의 신호가 된 것 같음. 미래의 챗봇도 그걸 학습하겠지 하는 생각이 듦
- Oxford comma를 일부러 뺀 게 농담이었다면, 칭찬과 저주를 동시에 보냄
- 나도 예전엔 em-dash 애용자였는데, 요즘은 콤마로 대체함
  문장이 좀 어색해지지만, 오히려 수공예적 진정성이 느껴지는 문장이라 마음에 듦
  다만 문장 끝의 두 칸 띄기는 절대 포기 못함. 1993년 타자 선생님이 문장도 숨 쉴 공간이 필요하다고 하셨음
- 문해력 위기가 이렇게 심각하다니, 챗봇이 유일한 작문 교사라니 슬픈 일임
- 나도 비슷한 문제를 겪는데, 내 경우는 불릿 포인트 때문임
  예전부터 Mac에서 option+8로 쓰던 습관인데, 이제는 그것도 LLM 스타일처럼 보임
HN의 신규 사용자 댓글에서 자주 쓰이는 단어를 통계로 비교해봤음
“ai”, “actually”, “code”, “real”, “built” 같은 단어가 신규 계정에서 훨씬 자주 등장함
데이터 표에 자세히 정리되어 있음
- 다양한 지표에서 p-value만 보고 유의미하다고 판단하는 건 p-hacking임
  학문적으로는 부적절하지만, 여기서는 흥미로운 통찰로 볼 수 있음
  대신 Cohen’s d 같은 효과 크기를 계산하면 차이의 실제 크기를 알 수 있음
- “actually building full, real AI app project code…” 식으로 단어를 이어붙인 농담 댓글도 있었음
- 나도 “actually”를 너무 자주 써서 줄이려 노력 중임
  대부분 의미 없는 필러 단어라서 글의 명확성을 떨어뜨림
- “ai” 단어는 최근 HN의 주제 편향 때문에 결과가 왜곡됐을 가능성이 있음
- 이런 낮은 p-value는 뭔가 이상하다는 신호 같음
  일부 봇이 AI 관련 주제를 인위적으로 띄우는 것 아닐까 하는 가설을 세워봄
예전부터 em-dash를 즐겨 썼는데, 이제는 AI로 오인받을까봐 못 쓰는 게 아쉬움
Mac에서는 alt+shift+-로 쉽게 입력되는데, 좋은 타이포그래피 관습이 오염된 느낌임
- LLM 피로감이 현실임. 중요한 건 문체보다 사람만의 관점과 개성임
  그게 있다면 어떤 구두점을 써도 인간적인 글로 보임
- 그냥 계속 쓰면 됨. 나도 20년째 그러고 있음
- 요즘은 세미콜론으로 대체함. 언젠가 그것도 AI의 상징이 될까 두려움
- 2010년부터 em-dash를 써왔고, curly quotes나 ellipsis도 즐겨 씀
  타이포그래피를 되찾자는 의미에서 Mac용 Alt 코드 가이드를 공유함
- 사람들이 뭐라 하든 상관없음. 오히려 LLM이 내 글을 학습했을 수도 있음
  결국 인간의 고유한 표현 방식은 드러나게 마련임
데이터는 GitHub 저장소에 SQLite DB로 공개되어 있음
Datasette Lite로 브라우저에서 직접 SQL 쿼리를 실행할 수 있음
em-dash를 많이 쓴 사용자 목록을 보면 대부분 정상 계정으로 보임
- 쿼리에 source를 추가하면, em-dash 사용이 많은 green 계정이 눈에 띔
- iPhone, iPad, Mac의 자동 교정 기능이 em-dash나 ellipsis를 자동으로 넣기도 해서 데이터가 왜곡될 수 있음
- “HN 댓글이 HN뿐 아니라 스웨덴의 누군가에게도 라이선스된 거냐”는 농담도 있었음
- “great repo name!”이라는 짧은 칭찬도 있었음
이건 HN뿐 아니라 익명 온라인 담론 전체의 위기처럼 느껴짐
신뢰가 무너지면 플랫폼 자체가 붕괴함
신원 인증이 유일한 해결책 같지만, 그마저도 완벽하진 않음
- 나도 같은 생각임. 익명성을 유지하면서 신뢰를 보장하는 시스템을 만들 수 있음
  내 블로그 글에서 그 아이디어를 소개했음
  결국 인간임을 증명해야 하는 시대가 올 것 같음
- 익명성을 없애는 건 해결이 아니라 다른 문제의 시작임
- 신원 대신 proof-of-work나 hashcash로 신뢰를 검증할 수도 있음
  댓글의 가치가 해시 연산량으로 증명되면, 신원 없이도 신뢰가 가능함
- 요즘 HN을 쓰기 싫어짐. 초대제로 바뀌면 좋겠음. HN은 HN만의 공간이었는데 아쉬움
- HN의 karma 시스템도 일종의 proof-of-work임
  봇이 긍정적 karma를 유지하지 못하면 권한을 얻지 못하므로, 완전한 신원 인증이 아니어도 방어가 가능함
요즘 HN에서 공식적이지만 밋밋한 댓글 패턴이 눈에 띔
“this is [요약] / not just x, it’s y / punchy ending” 같은 구조로 반복됨
예시로 snowhale 계정을 보면 명확함
- 해당 사용자는 단 4개의 밋밋한 글로 160포인트를 얻었음
  투표 네트워크를 조성해 내러티브를 조작하려는 전략일 수도 있음
- “is real”이라는 표현도 LLM 흔적으로 보임
  검색 결과에서 여러 계정이 같은 문장을 반복함
- 나도 요즘 그런 요약형 댓글을 자주 봄
  대화 맥락을 읽지 못하고, 이상하게 분리된 느낌의 답변이 많음
- AI도 결국 편향된 가치 판단을 함
  인간처럼 중립을 가장하지만, 그 안에는 훈련 데이터의 편향이 녹아 있음
  완전한 중립은 환상일지도 모름
- 사실 이런 패턴을 피하는 건 간단함
  “나처럼 말해, AI처럼 쓰지 마, 간결하게 써”라고 프롬프트에 추가하면 절반은 해결됨
오히려 이번 논란 덕분에 많은 사람이 em-dash의 존재를 처음 알게 됨
이제는 문장마다 em-dash를 넣는 신규 인간 사용자도 꽤 늘었음
내가 잡아낸 대부분의 봇 계정은 em-dash를 거의 안 씀
예를 들어 aplomb1026은 30초 간격으로 두 개의 긴 댓글을 올림
첫 댓글, 두 번째 댓글을 보면 명확함
이런 식으로 설정이 잘못되지 않았다면 대부분 눈치채지 못했을 것임
다른 봇으로는 dirtytoken7, fdefitte 등이 있음
영문학 전공자들은 예전부터 em-dash를 써왔는데, 이제는 AI처럼 보일까봐 자제 중임
만약 AI가 New Yorker식 분음 부호(diaeresis) 까지 쓰기 시작하면 정말 미칠 것 같음
- GitHub에서 일할 때 회사는 diaeresis를 독자에게 불친절하고 엘리트적이라며 금지했음
  그래도 나는 내부적으로는 계속 썼음
- 나와 함께 double-dash로 수동 타이핑의 미학을 지키자고 제안함
- 나도 이메일과 글에서 em-dash를 자주 썼지만, AI의 흔적처럼 보여서 중단했음
- 그런 기호가 있는 줄 몰랐는데, 이제는 내 표현 레퍼토리에 추가할 예정임
- 내 em-dash 사용량을 시각화한 히스토그램을 보고 싶다는 의견도 있었음
“AI처럼 보이지 않기”보다 “로봇 봉기에 섞여들기”를 택한다면?
나는 ⸻ (U+2E3B dash)를 제안함
- 이 댓글이 HN의 이전/다음 탐색 기능을 깨뜨린다는 제보가 있었음
- “Big Chungus of dashes”라 부르며, 가장 넓은 문자일지도 모른다는 농담도 있었음
- “두려워할 것 없다, 인간 친구여!”라는 유머러스한 답글도 있었음
- “우리는 ⸻을 더 자주 써서 ⸻에 대해 이야기해야 한다”는 식의 풍자도 이어졌음

답변달기

HN 신규 계정이 EM 대시를 사용할 확률이 10배 높음

HN 댓글 내 이상 징후 관찰

데이터 수집 및 분석 방법

주요 통계 결과

해석 및 의문점

참고 자료

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들