HN 신규 계정이 EM 대시를 사용할 확률이 10배 높음
(marginalia.nu)- 최근 Hacker News 신규 계정의 댓글 패턴을 분석한 결과, 기존 사용자와 뚜렷한 차이가 확인됨
- 신규 계정의 댓글 중 17.47%가 EM 대시(—), 화살표 등 특수기호를 사용했으며, 기존 계정의 1.83%보다 약 10배 높음
- 또한 신규 계정은 AI와 LLM 관련 단어를 언급할 확률이 18.67%로, 기존 계정의 11.8%보다 높게 나타남
- 분석은
/newcomments와/noobcomments데이터를 기반으로 약 700개씩의 샘플을 비교한 결과임 - 이러한 통계는 HN 커뮤니티 내 자동화 계정(봇) 증가 가능성을 시사함
HN 댓글 내 이상 징후 관찰
- 최근 몇 달간 HN에 봇이 급증한 듯한 현상이 관찰됨
- 일부 계정은 무의미한 문자열이나 숫자만을 게시
- 예시로 “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” 같은 난해한 텍스트나 “1662476506”, “Аё” 등의 단일 문자 댓글이 포함됨
- 이러한 계정 외에도 평범하지만 어색하거나 주제와 맞지 않는 댓글이 다수 존재
데이터 수집 및 분석 방법
-
/newcomments(최근 댓글)과/noobcomments(신규 계정 댓글) 페이지를 스크래핑하여 비교 분석 - 각 그룹에서 약 700개 댓글 샘플을 수집해 단순 통계 계산 수행
주요 통계 결과
- 신규 계정 댓글의 17.47%가 EM 대시, 화살표 등 특수기호를 포함, 기존 계정의 1.83% 대비 약 10배 차이
- 통계적 유의성 p = 7e-20
- 신규 계정 댓글의 18.67%가 AI 또는 LLM 관련 언급을 포함, 기존 계정의 11.8%보다 높음
- 통계적 유의성 p = 0.0018
해석 및 의문점
- 인간 사용자도 EM 대시를 사용할 수 있으나, 신규 계정에서의 과도한 사용 비율은 설명하기 어려움
- 이러한 차이는 HN 신규 계정 중 자동 생성된 계정 존재 가능성을 암시
참고 자료
- 분석에 사용된 소스 코드와 데이터는 GitHub 저장소(vlofgren/hn-green-clankers)에 공개됨
- Marginalia.nu는 해당 연구를 “Weird AI Crap” 시리즈의 일부로 게시함
Hacker News 의견들
-
예전에는 HN에서 em dash와 en dash를 자주 썼음
단순히 타이포그래피를 좋아해서 세미콜론 대신 대시를 쓰는 습관이 있었음
AHK로 키보드 단축키를 설정해두었는데, 이제는 그 덕분에 내 글이 LLM이 쓴 것처럼 보인다는 오해를 받게 되었음
몇 번이나 AI로 오인받은 적이 있어서, 예전엔 즐겁던 타이포그래피 취향이 이제는 부정적으로 보이는 게 아쉬움- 내 10대 자녀도 내가 왜 챗봇처럼 쓴다고 묻더라
사실 완전한 문장과 철자, 문법, 대문자에 신경 쓰는 사람이 있을 뿐인데, 이제는 그게 AI처럼 보이는 세상임
요즘은 일부러 조금 어수선하게 쓰는 게 인간의 신호가 된 것 같음. 미래의 챗봇도 그걸 학습하겠지 하는 생각이 듦 - Oxford comma를 일부러 뺀 게 농담이었다면, 칭찬과 저주를 동시에 보냄
- 나도 예전엔 em-dash 애용자였는데, 요즘은 콤마로 대체함
문장이 좀 어색해지지만, 오히려 수공예적 진정성이 느껴지는 문장이라 마음에 듦
다만 문장 끝의 두 칸 띄기는 절대 포기 못함. 1993년 타자 선생님이 문장도 숨 쉴 공간이 필요하다고 하셨음 - 문해력 위기가 이렇게 심각하다니, 챗봇이 유일한 작문 교사라니 슬픈 일임
- 나도 비슷한 문제를 겪는데, 내 경우는 불릿 포인트 때문임
예전부터 Mac에서 option+8로 쓰던 습관인데, 이제는 그것도 LLM 스타일처럼 보임
- 내 10대 자녀도 내가 왜 챗봇처럼 쓴다고 묻더라
-
HN의 신규 사용자 댓글에서 자주 쓰이는 단어를 통계로 비교해봤음
“ai”, “actually”, “code”, “real”, “built” 같은 단어가 신규 계정에서 훨씬 자주 등장함
데이터 표에 자세히 정리되어 있음- 다양한 지표에서 p-value만 보고 유의미하다고 판단하는 건 p-hacking임
학문적으로는 부적절하지만, 여기서는 흥미로운 통찰로 볼 수 있음
대신 Cohen’s d 같은 효과 크기를 계산하면 차이의 실제 크기를 알 수 있음 - “actually building full, real AI app project code…” 식으로 단어를 이어붙인 농담 댓글도 있었음
- 나도 “actually”를 너무 자주 써서 줄이려 노력 중임
대부분 의미 없는 필러 단어라서 글의 명확성을 떨어뜨림 - “ai” 단어는 최근 HN의 주제 편향 때문에 결과가 왜곡됐을 가능성이 있음
- 이런 낮은 p-value는 뭔가 이상하다는 신호 같음
일부 봇이 AI 관련 주제를 인위적으로 띄우는 것 아닐까 하는 가설을 세워봄
- 다양한 지표에서 p-value만 보고 유의미하다고 판단하는 건 p-hacking임
-
예전부터 em-dash를 즐겨 썼는데, 이제는 AI로 오인받을까봐 못 쓰는 게 아쉬움
Mac에서는alt+shift+-로 쉽게 입력되는데, 좋은 타이포그래피 관습이 오염된 느낌임- LLM 피로감이 현실임. 중요한 건 문체보다 사람만의 관점과 개성임
그게 있다면 어떤 구두점을 써도 인간적인 글로 보임 - 그냥 계속 쓰면 됨. 나도 20년째 그러고 있음
- 요즘은 세미콜론으로 대체함. 언젠가 그것도 AI의 상징이 될까 두려움
- 2010년부터 em-dash를 써왔고, curly quotes나 ellipsis도 즐겨 씀
타이포그래피를 되찾자는 의미에서 Mac용 Alt 코드 가이드를 공유함 - 사람들이 뭐라 하든 상관없음. 오히려 LLM이 내 글을 학습했을 수도 있음
결국 인간의 고유한 표현 방식은 드러나게 마련임
- LLM 피로감이 현실임. 중요한 건 문체보다 사람만의 관점과 개성임
-
데이터는 GitHub 저장소에 SQLite DB로 공개되어 있음
Datasette Lite로 브라우저에서 직접 SQL 쿼리를 실행할 수 있음
em-dash를 많이 쓴 사용자 목록을 보면 대부분 정상 계정으로 보임- 쿼리에
source를 추가하면, em-dash 사용이 많은 green 계정이 눈에 띔 - iPhone, iPad, Mac의 자동 교정 기능이 em-dash나 ellipsis를 자동으로 넣기도 해서 데이터가 왜곡될 수 있음
- “HN 댓글이 HN뿐 아니라 스웨덴의 누군가에게도 라이선스된 거냐”는 농담도 있었음
- “great repo name!”이라는 짧은 칭찬도 있었음
- 쿼리에
-
이건 HN뿐 아니라 익명 온라인 담론 전체의 위기처럼 느껴짐
신뢰가 무너지면 플랫폼 자체가 붕괴함
신원 인증이 유일한 해결책 같지만, 그마저도 완벽하진 않음- 나도 같은 생각임. 익명성을 유지하면서 신뢰를 보장하는 시스템을 만들 수 있음
내 블로그 글에서 그 아이디어를 소개했음
결국 인간임을 증명해야 하는 시대가 올 것 같음 - 익명성을 없애는 건 해결이 아니라 다른 문제의 시작임
- 신원 대신 proof-of-work나 hashcash로 신뢰를 검증할 수도 있음
댓글의 가치가 해시 연산량으로 증명되면, 신원 없이도 신뢰가 가능함 - 요즘 HN을 쓰기 싫어짐. 초대제로 바뀌면 좋겠음. HN은 HN만의 공간이었는데 아쉬움
- HN의 karma 시스템도 일종의 proof-of-work임
봇이 긍정적 karma를 유지하지 못하면 권한을 얻지 못하므로, 완전한 신원 인증이 아니어도 방어가 가능함
- 나도 같은 생각임. 익명성을 유지하면서 신뢰를 보장하는 시스템을 만들 수 있음
-
요즘 HN에서 공식적이지만 밋밋한 댓글 패턴이 눈에 띔
“this is [요약] / not just x, it’s y / punchy ending” 같은 구조로 반복됨
예시로 snowhale 계정을 보면 명확함- 해당 사용자는 단 4개의 밋밋한 글로 160포인트를 얻었음
투표 네트워크를 조성해 내러티브를 조작하려는 전략일 수도 있음 - “is real”이라는 표현도 LLM 흔적으로 보임
검색 결과에서 여러 계정이 같은 문장을 반복함 - 나도 요즘 그런 요약형 댓글을 자주 봄
대화 맥락을 읽지 못하고, 이상하게 분리된 느낌의 답변이 많음 - AI도 결국 편향된 가치 판단을 함
인간처럼 중립을 가장하지만, 그 안에는 훈련 데이터의 편향이 녹아 있음
완전한 중립은 환상일지도 모름 - 사실 이런 패턴을 피하는 건 간단함
“나처럼 말해, AI처럼 쓰지 마, 간결하게 써”라고 프롬프트에 추가하면 절반은 해결됨
- 해당 사용자는 단 4개의 밋밋한 글로 160포인트를 얻었음
-
오히려 이번 논란 덕분에 많은 사람이 em-dash의 존재를 처음 알게 됨
이제는 문장마다 em-dash를 넣는 신규 인간 사용자도 꽤 늘었음 -
내가 잡아낸 대부분의 봇 계정은 em-dash를 거의 안 씀
예를 들어 aplomb1026은 30초 간격으로 두 개의 긴 댓글을 올림
첫 댓글, 두 번째 댓글을 보면 명확함
이런 식으로 설정이 잘못되지 않았다면 대부분 눈치채지 못했을 것임
다른 봇으로는 dirtytoken7, fdefitte 등이 있음 -
영문학 전공자들은 예전부터 em-dash를 써왔는데, 이제는 AI처럼 보일까봐 자제 중임
만약 AI가 New Yorker식 분음 부호(diaeresis) 까지 쓰기 시작하면 정말 미칠 것 같음- GitHub에서 일할 때 회사는 diaeresis를 독자에게 불친절하고 엘리트적이라며 금지했음
그래도 나는 내부적으로는 계속 썼음 - 나와 함께 double-dash로 수동 타이핑의 미학을 지키자고 제안함
- 나도 이메일과 글에서 em-dash를 자주 썼지만, AI의 흔적처럼 보여서 중단했음
- 그런 기호가 있는 줄 몰랐는데, 이제는 내 표현 레퍼토리에 추가할 예정임
- 내 em-dash 사용량을 시각화한 히스토그램을 보고 싶다는 의견도 있었음
- GitHub에서 일할 때 회사는 diaeresis를 독자에게 불친절하고 엘리트적이라며 금지했음
-
“AI처럼 보이지 않기”보다 “로봇 봉기에 섞여들기”를 택한다면?
나는 ⸻ (U+2E3B dash)를 제안함- 이 댓글이 HN의 이전/다음 탐색 기능을 깨뜨린다는 제보가 있었음
- “Big Chungus of dashes”라 부르며, 가장 넓은 문자일지도 모른다는 농담도 있었음
- “두려워할 것 없다, 인간 친구여!”라는 유머러스한 답글도 있었음
- “우리는 ⸻을 더 자주 써서 ⸻에 대해 이야기해야 한다”는 식의 풍자도 이어졌음