# HN 이음줄(Em Dash) 사용자 리더보드 (ChatGPT 등장 전 기준)

> Clean Markdown view of GeekNews topic #22815. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=22815](https://news.hada.io/topic?id=22815)
- GeekNews Markdown: [https://news.hada.io/topic/22815.md](https://news.hada.io/topic/22815.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-08-31T09:56:12+09:00
- Updated: 2025-08-31T09:56:12+09:00
- Original source: [gally.net](https://www.gally.net/miscellaneous/hn-em-dash-user-leaderboard.html)
- Points: 1
- Comments: 1

## Topic Body

- 이 리더보드는 **ChatGPT 출시 이전(2022년 11월 30일)** 까지 Hacker News에서 **이음줄(—)** 이 포함된 게시물 수로 상위 50명의 사용자를 선정함
- **이음줄** 사용 빈도를 기준으로, **Hacker News 커뮤니티 내 언어 스타일과 문화**를 보여주는 색다른 통계 제공임
- 본 리더보드는 **특정 시점 이전의 글쓰기 습관**을 분석하여 커뮤니티의 변화 추적에 참고자료 역할을 함
- 더 완전한 리더보드 버전과 관련 **토론 링크**가 추가로 제공됨
- 커뮤니티 내 **글쓰기 패턴이나 언어의 다양성**에 관심 있는 개발자, 분석가에게 유익한 리소스임

---

### 🏆 Hacker News Em Dash Champions

- 이 리더보드는 **2022년 11월 30일**, 즉 ChatGPT가 공개되기 전까지의 기간 동안, **Hacker News**에서 **이음줄(—)이 포함된 게시물의 수**를 기준으로 상위 50명의 사용자를 선정함
- 이 순위표는 **게시물 내 이음줄 사용 빈도**를 중심으로 하여, 어떤 사용자가 해당 구두점을 많이 활용했는지 보여줌
- 더욱 완성도 높은 최신판 리더보드는 링크로 제공됨
  - [더 완성된 리더보드](hn-em-dash-user-leaderboard-v2.html)
- 이 프로젝트와 관련된 **Hacker News 토론 스레드**도 바로 연결되어 있음
  - [토론 보기](https://news.ycombinator.com/item?id=45071722)
- 이와 같은 리더보드는 **커뮤니티 내 언어적 특성, 글쓰기 스타일, 소소한 활동 내역에 관심 있는 사용자**에게 흥미로운 인사이트를 제공함

## Comments



### Comment 43157

- Author: neo
- Created: 2025-08-31T09:56:13+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=45071722) 
- v1(제출된 URL)은 [https://www.gally.net/miscellaneous/hn-em-dash-user-leaderboard.html](https://www.gally.net/miscellaneous/hn-em-dash-user-leaderboard.html)임, 지금은 더 복잡한 em dash 분석을 위한 v2로 대체했음, 자세한 내용은 [여기](https://news.ycombinator.com/item?id=45075379)와 [여기](https://news.ycombinator.com/item?id=45072635) 참고 바람

- 이런 주제가 바로 Hacker News에 꼭 필요한 최고급 콘텐츠임, 이런 이슈야말로 진짜 중요한 이슈임

- Google BigQuery의 HN public 데이터셋을 이용해 em dash 사용량을 년도별로 쿼리해봄, 결과적으로 em dash 사용이 최근 계속 증가 추세임  
  2006년엔 거의 없었으나, 최근엔 댓글 당 1%를 넘어섬  
  유저별로 em dash 사용 비율을 뽑아볼 때 zmgsabst가 전체 댓글에서 가장 많이 사용했고, westoncb는 오래된 계정임  
  관련 링크: [BigQuery HN 데이터셋](https://console.cloud.google.com/marketplace/product/y-combinator/hacker-news), [zmgsabst 프로필](https://news.ycombinator.com/threads?id=zmgsabst), [westoncb 프로필](https://news.ycombinator.com/threads?id=westoncb)
  - 나이 많은 사람들, 예를 들어 마흔 이상 연령대는 em dash를 익숙하게 사용하고 자라왔음
  - zmgsabst의 댓글을 살펴보니 dash 주변에 공백을 넣어 쓰는 경향이 있음 — 이런 식임  
    한편, ChatGPT는 공백 없이—이렇게—쓴다는 점이 흥미로움

- 사람들의 --, 즉 더블 하이픈 사용 빈도로도 랭킹을 매겨보면 재미있을 것 같음  
  나 역시 오랜 리눅스 사용자이자 2022년 말 Apple Silicon 이후로는 맥북도 쓰기 시작했음  
  윈도우와 리눅스에서는 em-dash 입력이 꽤 번거로운 alt-code 프로세스지만, Mac에서는 option키가 3차 시프트 역할까지 해주어 option + -만 치면 en dash가 나옴  
  (사실 — 진짜 em dash 입력은 shift + option + -임)  
  나는 Mac을 쓰기 시작한 이후에도 em dash를 굳이 쓰진 않지만, 나와 비슷한 상황의 누군가는 새로운 입력 편의성 때문에 em dash 사용이 늘었을 거라 예상함
  - option + - 조합으로 입력되는 문자는 실제로는 en dash임, em dash는 shift + option + - 조합임  
    TeX에 익숙한 사람들에게는 --가 en dash, ---가 em dash 입력 방식임, triple hyphen도 리스트에 넣는 것이 좋겠음
  - 리눅스에서는 Compose 키를 활성화하면 em dash와 en dash를 쉽게 넣을 수 있음  
    예: compose 키 + ---는 em dash, compose 키 + --.는 en dash  
    인용부호도 이런 식으로 조합해서 입력 가능함  
    또는 “Level 3 shift”나 “Alternate Characters Key(AltGr)”를 이용해 다양한 특수문자와 대시류를 입력 가능함
  - 리눅스 환경에서도 Compose 키 설정만 하면 아래처럼 쉽게 대시 넣기 가능함  
    --. → –  
    --- → —
  - iOS에선 더블 대시를 입력하면 자동으로 em dash로 변환되는 기능이 있음 — 직접 더블 대시를 쳐봤음

- 자신의 em dash 사용 횟수를 알고 싶으면 아래 스크립트를 사용하면 됨, username만 본인 것으로 바꾸면 출력해줌  
  내 경우 이 댓글 전까지 46회 사용했음
  ```bash
  curl -s "https://hn.algolia.com/api/v1/search?tags=comment,author_sjs382&hitsPerPage=10000" \
   | jq -r '.hits[].comment_text' \
   | grep -o "—" \
   | wc -l
  ```
  - 이 스크립트 정말 쓸만함, 나는 em dash뿐 아니라 en dash, --, 그리고 다른 문자열까지 다 체크해봄

- em dash의 전체 댓글 대비 비율 기반 분석이 더 흥미로울 것 같음, 아마 나중에 가입한 유저들도 랭킹 상위에 오를 수 있을 것 같음
  - 위 쿼리를 Google Cloud BigQuery에서 직접 돌려볼 수 있음.  
    안내된 GoogleSQL pipe syntax를 써서, 각 유저의 em dash 사용 비율로 정렬 가능함  
    (내 경우 전체 875 댓글 중 em dash가 258회(0.29 비율)로 516명 중 47위에 랭크됨)  
    타임스탬프 관련 정보까지 추출하려면 추가 쿼리로 first/avg timestamp 등을 볼 수 있음  
    참고로 em dash 최다 사용자는 2022년 1월 말에 활동을 시작한 점이 눈에 띔

- 단순 raw 숫자 말고, 다음(단어)—(em dash)—(단어)처럼 단어 사이에 붙여서 쓰인 경우만 카운트하는 방식도 더 깊이 있는 통계가 될 것 같음  
  예를 들어 "(—)"나 공백이 있는 em dash, 러시아 사용자가 선호하는 방식 등을 배제 가능함  
  그리고 언어별로 웹페이지 타이틀에 "[페이지명] — [사이트명]" 패턴이 관행적으로 많이 사용됨
  - 러시아뿐 아니라 AP 스타일 가이드도 em dash 앞뒤에 공백을 두도록 규정함  
    영국 스타일 가이드(예: The Guardian)는 en dash + 공백을 추천하지만, 실제로는 em dash + 공백을 쓰는 경우도 많음  
    독일 등 다른 나라들도 em dash 사용 방식이 다양함, 미국과 러시아만 있는 게 아님

- em dash 순위 놀이도 재미있지만, 전체 댓글 수가 많을수록 유리하니 em dash/댓글 비율이 더 의미 있지 않겠는지 생각함
  - 방금 HuggingFace의 HN 데이터셋으로 비율로 직접 계산해봄, 2018년부터 em dash 비율이 급등함  
    특히 2024년 후반부터 다시 치솟는 경향이 눈에 띔  
    2025년 데이터는 없어서 아쉽지만, pre-genAI 시절부터 em dash 애호가들의 주장이 근거 없는 건 아니라고 느껴짐

- em dash 식별 기준이 실제 유니코드 em dash를 말하는 것인지 궁금함  
  나 역시 90년대 논문 쓰려고 Latex를 배운 뒤로 --- 조합(트리플 하이픈)을 습관처럼 쓰고 있는데, 요즘은 이게 LLM이 생성한 텍스트의 단서가 되었는지도 궁금함
  - Mac에서는 em dash를 쉽게 넣는 단축키가 있음, 나는 한동안 Mac에서만 em dash를 제대로 입력했음  
    이걸 쓰는 게 “글쓰기 스타일에 신경 쓰는 Mac 유저”의 신호처럼 느껴졌음  
    현재는 Mac이 아니라 em dash를 바로 만드는 방법을 잘 모르겠고, 예전엔 Latex나 triple hyphen 조합뿐이었음
  - 대조를 강조하는 서술 방식 자체가 진짜 LLM의 특징임  
    대부분 사람들이 잘 모르는 특수 타이포그래피 문자(em dash)를 써서 의심을 더하게 됨
  - 내 Compose 키는 오른쪽 alt + 왼쪽 ctrl로 지정해두어, 이제 ---는 —로, --.는 –로 쉽게 만들 수 있음  
    참고로 en dash는 거의 언급조차 안 됨

- 나는 em dash 애호가로서—우리 같은 사람이 몇 명은 있음—ChatGPT가 em dash를 적극 쓰는 현상에 딱히 기뻐할 수만은 없음  
  내 생각에는 RLHF 튜닝 특성상 em dash—en dash, hyphen과 명확히 구분되는—가 권위적인 문체 표식으로 인식된 것 같음
  - 영국식 공식 글쓰기에서는 ‘word en-dash word’가 전통임  
    ‘wordem-dashword’는 미국식 스타일로 알고 있었고, 영국 내에서는 거의 본 적이 없었음  
    외부인은 en dash와 hyphen 차이를 잘 모르기도 하고, 매체도 이에 대해 엄격하지 않은 경향이 있음  
    ChatGPT가 em dash를 쓰는 건 미국식 데이터셋 영향이라는 추측도 있음  
    (나는 30년 경력의 프로 작가 출신이고, ChatGPT에는 em dash와 Title Case 제목은 쓰지 말라고 처음부터 지시함)  
    참고: [The Guardian 스타일 가이드](https://www.theguardian.com/guardian-style-guide-d)
  - 개인적으로는 매우 불만임  
    “디테일에 신경 쓴 인간이 쓴 텍스트”의 신호였던 em dash가 이제 AI가 만든 흔한 산출물로 바뀌어버려 속상함  
    가끔은 LLM이 날 약올릴 목적으로 개발된 게 아닌가 생각까지 하게 됨
