# HN 신규 계정이 EM 대시를 사용할 확률이 10배 높음

> Clean Markdown view of GeekNews topic #27012. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27012](https://news.hada.io/topic?id=27012)
- GeekNews Markdown: [https://news.hada.io/topic/27012.md](https://news.hada.io/topic/27012.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-02-26T09:52:30+09:00
- Updated: 2026-02-26T09:52:30+09:00
- Original source: [marginalia.nu](https://www.marginalia.nu/weird-ai-crap/hn/)
- Points: 1
- Comments: 1

## Topic Body

- 최근 **Hacker News 신규 계정의 댓글 패턴**을 분석한 결과, 기존 사용자와 뚜렷한 차이가 확인됨  
- 신규 계정의 댓글 중 **17.47%가 EM 대시(—), 화살표 등 특수기호**를 사용했으며, 기존 계정의 1.83%보다 약 10배 높음  
- 또한 신규 계정은 **AI와 LLM 관련 단어**를 언급할 확률이 18.67%로, 기존 계정의 11.8%보다 높게 나타남  
- 분석은 `/newcomments`와 `/noobcomments` 데이터를 기반으로 약 700개씩의 샘플을 비교한 결과임  
- 이러한 통계는 **HN 커뮤니티 내 자동화 계정(봇) 증가 가능성**을 시사함  

---
### HN 댓글 내 이상 징후 관찰
- 최근 몇 달간 **HN에 봇이 급증한 듯한 현상**이 관찰됨  
  - 일부 계정은 무의미한 문자열이나 숫자만을 게시  
  - 예시로 “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” 같은 난해한 텍스트나 “1662476506”, “Аё” 등의 단일 문자 댓글이 포함됨  
- 이러한 계정 외에도 **평범하지만 어색하거나 주제와 맞지 않는 댓글**이 다수 존재  

### 데이터 수집 및 분석 방법
- `/newcomments`(최근 댓글)과 `/noobcomments`(신규 계정 댓글) 페이지를 **스크래핑하여 비교 분석**  
- 각 그룹에서 약 **700개 댓글 샘플**을 수집해 단순 통계 계산 수행  

### 주요 통계 결과
- 신규 계정 댓글의 **17.47%가 EM 대시, 화살표 등 특수기호**를 포함, 기존 계정의 1.83% 대비 약 10배 차이  
  - 통계적 유의성 p = 7e-20  
- 신규 계정 댓글의 **18.67%가 AI 또는 LLM 관련 언급**을 포함, 기존 계정의 11.8%보다 높음  
  - 통계적 유의성 p = 0.0018  

### 해석 및 의문점
- 인간 사용자도 EM 대시를 사용할 수 있으나, **신규 계정에서의 과도한 사용 비율은 설명하기 어려움**  
- 이러한 차이는 **HN 신규 계정 중 자동 생성된 계정 존재 가능성**을 암시  

### 참고 자료
- 분석에 사용된 **소스 코드와 데이터는 GitHub 저장소**([vlofgren/hn-green-clankers](https://github.com/vlofgren/hn-green-clankers))에 공개됨  
- Marginalia.nu는 해당 연구를 **“Weird AI Crap” 시리즈**의 일부로 게시함

## Comments



### Comment 51920

- Author: neo
- Created: 2026-02-26T09:52:30+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47152085) 
- 예전에는 HN에서 **em dash**와 **en dash**를 자주 썼음  
  단순히 타이포그래피를 좋아해서 세미콜론 대신 대시를 쓰는 습관이 있었음  
  AHK로 키보드 단축키를 설정해두었는데, 이제는 그 덕분에 내 글이 LLM이 쓴 것처럼 보인다는 오해를 받게 되었음  
  몇 번이나 AI로 오인받은 적이 있어서, 예전엔 즐겁던 타이포그래피 취향이 이제는 부정적으로 보이는 게 아쉬움
  - 내 10대 자녀도 내가 왜 챗봇처럼 쓴다고 묻더라  
    사실 완전한 문장과 철자, 문법, 대문자에 신경 쓰는 사람이 있을 뿐인데, 이제는 그게 AI처럼 보이는 세상임  
    요즘은 일부러 **조금 어수선하게 쓰는 게 인간의 신호**가 된 것 같음. 미래의 챗봇도 그걸 학습하겠지 하는 생각이 듦
  - Oxford comma를 일부러 뺀 게 농담이었다면, 칭찬과 저주를 동시에 보냄
  - 나도 예전엔 em-dash 애용자였는데, 요즘은 콤마로 대체함  
    문장이 좀 어색해지지만, 오히려 **수공예적 진정성**이 느껴지는 문장이라 마음에 듦  
    다만 문장 끝의 **두 칸 띄기**는 절대 포기 못함. 1993년 타자 선생님이 문장도 숨 쉴 공간이 필요하다고 하셨음
  - 문해력 위기가 이렇게 심각하다니, 챗봇이 유일한 작문 교사라니 슬픈 일임
  - 나도 비슷한 문제를 겪는데, 내 경우는 **불릿 포인트** 때문임  
    예전부터 Mac에서 option+8로 쓰던 습관인데, 이제는 그것도 LLM 스타일처럼 보임

- HN의 신규 사용자 댓글에서 자주 쓰이는 단어를 통계로 비교해봤음  
  “ai”, “actually”, “code”, “real”, “built” 같은 단어가 **신규 계정에서 훨씬 자주 등장**함  
  [데이터 표](https://github.com/vlofgren/hn-green-clankers)에 자세히 정리되어 있음
  - 다양한 지표에서 p-value만 보고 유의미하다고 판단하는 건 **p-hacking**임  
    학문적으로는 부적절하지만, 여기서는 흥미로운 통찰로 볼 수 있음  
    대신 **Cohen’s d** 같은 효과 크기를 계산하면 차이의 실제 크기를 알 수 있음
  - “actually building full, real AI app project code…” 식으로 단어를 이어붙인 농담 댓글도 있었음
  - 나도 “actually”를 너무 자주 써서 줄이려 노력 중임  
    대부분 의미 없는 **필러 단어**라서 글의 명확성을 떨어뜨림
  - “ai” 단어는 최근 HN의 주제 편향 때문에 결과가 왜곡됐을 가능성이 있음
  - 이런 낮은 p-value는 뭔가 이상하다는 신호 같음  
    일부 **봇이 AI 관련 주제를 인위적으로 띄우는 것** 아닐까 하는 가설을 세워봄

- 예전부터 em-dash를 즐겨 썼는데, 이제는 **AI로 오인받을까봐** 못 쓰는 게 아쉬움  
  Mac에서는 `alt+shift+-`로 쉽게 입력되는데, 좋은 타이포그래피 관습이 오염된 느낌임
  - LLM 피로감이 현실임. 중요한 건 문체보다 **사람만의 관점과 개성**임  
    그게 있다면 어떤 구두점을 써도 인간적인 글로 보임
  - 그냥 계속 쓰면 됨. 나도 20년째 그러고 있음
  - 요즘은 세미콜론으로 대체함. 언젠가 그것도 AI의 상징이 될까 두려움
  - 2010년부터 em-dash를 써왔고, **curly quotes**나 **ellipsis**도 즐겨 씀  
    타이포그래피를 되찾자는 의미에서 [Mac용 Alt 코드 가이드](https://howtotypeanything.com/alt-codes-on-mac/)를 공유함
  - 사람들이 뭐라 하든 상관없음. 오히려 LLM이 내 글을 학습했을 수도 있음  
    결국 인간의 **고유한 표현 방식**은 드러나게 마련임

- 데이터는 [GitHub 저장소](https://github.com/vlofgren/hn-green-clankers)에 SQLite DB로 공개되어 있음  
  [Datasette Lite](https://lite.datasette.io/?url=https%253A%252F%252Fraw.githubusercontent.com%252Fvlofgren%252Fhn-green-clankers%252Fmaster%252Fhncomments.db#/hncomments)로 브라우저에서 직접 SQL 쿼리를 실행할 수 있음  
  em-dash를 많이 쓴 사용자 목록을 보면 대부분 **정상 계정**으로 보임
  - 쿼리에 `source`를 추가하면, em-dash 사용이 많은 **green 계정**이 눈에 띔
  - iPhone, iPad, Mac의 **자동 교정 기능**이 em-dash나 ellipsis를 자동으로 넣기도 해서 데이터가 왜곡될 수 있음
  - “HN 댓글이 HN뿐 아니라 스웨덴의 누군가에게도 라이선스된 거냐”는 농담도 있었음
  - “great repo name!”이라는 짧은 칭찬도 있었음

- 이건 HN뿐 아니라 **익명 온라인 담론 전체의 위기**처럼 느껴짐  
  신뢰가 무너지면 플랫폼 자체가 붕괴함  
  신원 인증이 유일한 해결책 같지만, 그마저도 완벽하진 않음
  - 나도 같은 생각임. **익명성을 유지하면서 신뢰를 보장하는 시스템**을 만들 수 있음  
    [내 블로그 글](https://blog.picheta.me/post/the-future-of-social-media-is-human/)에서 그 아이디어를 소개했음  
    결국 인간임을 증명해야 하는 시대가 올 것 같음
  - 익명성을 없애는 건 해결이 아니라 **다른 문제의 시작**임
  - 신원 대신 **proof-of-work**나 **hashcash**로 신뢰를 검증할 수도 있음  
    댓글의 가치가 해시 연산량으로 증명되면, 신원 없이도 신뢰가 가능함
  - 요즘 HN을 쓰기 싫어짐. 초대제로 바뀌면 좋겠음. HN은 HN만의 공간이었는데 아쉬움
  - HN의 **karma 시스템**도 일종의 proof-of-work임  
    봇이 긍정적 karma를 유지하지 못하면 권한을 얻지 못하므로, 완전한 신원 인증이 아니어도 방어가 가능함

- 요즘 HN에서 **공식적이지만 밋밋한 댓글 패턴**이 눈에 띔  
  “this is [요약] / not just x, it’s y / punchy ending” 같은 구조로 반복됨  
  예시로 [snowhale 계정](https://news.ycombinator.com/threads?id=snowhale)을 보면 명확함
  - 해당 사용자는 단 4개의 밋밋한 글로 160포인트를 얻었음  
    **투표 네트워크를 조성해 내러티브를 조작**하려는 전략일 수도 있음
  - “is real”이라는 표현도 **LLM 흔적**으로 보임  
    [검색 결과](https://hn.algolia.com/?dateRange=all&page=0&prefix=false&query=%22is%20real%22&sort=byDate&type=comment)에서 여러 계정이 같은 문장을 반복함
  - 나도 요즘 그런 **요약형 댓글**을 자주 봄  
    대화 맥락을 읽지 못하고, 이상하게 **분리된 느낌**의 답변이 많음
  - AI도 결국 **편향된 가치 판단**을 함  
    인간처럼 중립을 가장하지만, 그 안에는 훈련 데이터의 편향이 녹아 있음  
    완전한 중립은 환상일지도 모름
  - 사실 이런 패턴을 피하는 건 간단함  
    “나처럼 말해, AI처럼 쓰지 마, 간결하게 써”라고 프롬프트에 추가하면 절반은 해결됨

- 오히려 이번 논란 덕분에 많은 사람이 **em-dash의 존재를 처음 알게 됨**  
  이제는 문장마다 em-dash를 넣는 **신규 인간 사용자**도 꽤 늘었음

- 내가 잡아낸 대부분의 **봇 계정은 em-dash를 거의 안 씀**  
  예를 들어 [aplomb1026](https://news.ycombinator.com/threads?id=aplomb1026)은 30초 간격으로 두 개의 긴 댓글을 올림  
  [첫 댓글](https://news.ycombinator.com/item?id=47155655), [두 번째 댓글](https://news.ycombinator.com/item?id=47155648)을 보면 명확함  
  이런 식으로 설정이 잘못되지 않았다면 대부분 눈치채지 못했을 것임  
  다른 봇으로는 [dirtytoken7](https://news.ycombinator.com/threads?id=dirtytoken7), [fdefitte](https://news.ycombinator.com/threads?id=fdefitte) 등이 있음

- **영문학 전공자들**은 예전부터 em-dash를 써왔는데, 이제는 AI처럼 보일까봐 자제 중임  
  만약 AI가 **New Yorker식 분음 부호(diaeresis)** 까지 쓰기 시작하면 정말 미칠 것 같음
  - GitHub에서 일할 때 회사는 diaeresis를 **독자에게 불친절하고 엘리트적**이라며 금지했음  
    그래도 나는 내부적으로는 계속 썼음
  - 나와 함께 **double-dash**로 수동 타이핑의 미학을 지키자고 제안함
  - 나도 이메일과 글에서 em-dash를 자주 썼지만, AI의 흔적처럼 보여서 중단했음
  - 그런 기호가 있는 줄 몰랐는데, 이제는 내 **표현 레퍼토리에 추가**할 예정임
  - 내 em-dash 사용량을 시각화한 **히스토그램**을 보고 싶다는 의견도 있었음

- “AI처럼 보이지 않기”보다 “**로봇 봉기에 섞여들기**”를 택한다면?  
  나는 ⸻ (U+2E3B dash)를 제안함
  - 이 댓글이 HN의 **이전/다음 탐색 기능을 깨뜨린다**는 제보가 있었음
  - “Big Chungus of dashes”라 부르며, 가장 넓은 문자일지도 모른다는 농담도 있었음
  - “두려워할 것 없다, **인간 친구여!**”라는 유머러스한 답글도 있었음
  - “우리는 ⸻을 더 자주 써서 ⸻에 대해 이야기해야 한다”는 식의 풍자도 이어졌음
