HN 이음줄(Em Dash) 사용자 리더보드 (ChatGPT 등장 전 기준)
(gally.net)- 이 리더보드는 ChatGPT 출시 이전(2022년 11월 30일) 까지 Hacker News에서 이음줄(—) 이 포함된 게시물 수로 상위 50명의 사용자를 선정함
- 이음줄 사용 빈도를 기준으로, Hacker News 커뮤니티 내 언어 스타일과 문화를 보여주는 색다른 통계 제공임
- 본 리더보드는 특정 시점 이전의 글쓰기 습관을 분석하여 커뮤니티의 변화 추적에 참고자료 역할을 함
- 더 완전한 리더보드 버전과 관련 토론 링크가 추가로 제공됨
- 커뮤니티 내 글쓰기 패턴이나 언어의 다양성에 관심 있는 개발자, 분석가에게 유익한 리소스임
🏆 Hacker News Em Dash Champions
- 이 리더보드는 2022년 11월 30일, 즉 ChatGPT가 공개되기 전까지의 기간 동안, Hacker News에서 이음줄(—)이 포함된 게시물의 수를 기준으로 상위 50명의 사용자를 선정함
- 이 순위표는 게시물 내 이음줄 사용 빈도를 중심으로 하여, 어떤 사용자가 해당 구두점을 많이 활용했는지 보여줌
- 더욱 완성도 높은 최신판 리더보드는 링크로 제공됨
- 이 프로젝트와 관련된 Hacker News 토론 스레드도 바로 연결되어 있음
- 이와 같은 리더보드는 커뮤니티 내 언어적 특성, 글쓰기 스타일, 소소한 활동 내역에 관심 있는 사용자에게 흥미로운 인사이트를 제공함
Hacker News 의견
-
v1(제출된 URL)은 https://www.gally.net/miscellaneous/hn-em-dash-user-leaderboard.html임, 지금은 더 복잡한 em dash 분석을 위한 v2로 대체했음, 자세한 내용은 여기와 여기 참고 바람
-
이런 주제가 바로 Hacker News에 꼭 필요한 최고급 콘텐츠임, 이런 이슈야말로 진짜 중요한 이슈임
-
Google BigQuery의 HN public 데이터셋을 이용해 em dash 사용량을 년도별로 쿼리해봄, 결과적으로 em dash 사용이 최근 계속 증가 추세임
2006년엔 거의 없었으나, 최근엔 댓글 당 1%를 넘어섬
유저별로 em dash 사용 비율을 뽑아볼 때 zmgsabst가 전체 댓글에서 가장 많이 사용했고, westoncb는 오래된 계정임
관련 링크: BigQuery HN 데이터셋, zmgsabst 프로필, westoncb 프로필- 나이 많은 사람들, 예를 들어 마흔 이상 연령대는 em dash를 익숙하게 사용하고 자라왔음
- zmgsabst의 댓글을 살펴보니 dash 주변에 공백을 넣어 쓰는 경향이 있음 — 이런 식임
한편, ChatGPT는 공백 없이—이렇게—쓴다는 점이 흥미로움
-
사람들의 --, 즉 더블 하이픈 사용 빈도로도 랭킹을 매겨보면 재미있을 것 같음
나 역시 오랜 리눅스 사용자이자 2022년 말 Apple Silicon 이후로는 맥북도 쓰기 시작했음
윈도우와 리눅스에서는 em-dash 입력이 꽤 번거로운 alt-code 프로세스지만, Mac에서는 option키가 3차 시프트 역할까지 해주어 option + -만 치면 en dash가 나옴
(사실 — 진짜 em dash 입력은 shift + option + -임)
나는 Mac을 쓰기 시작한 이후에도 em dash를 굳이 쓰진 않지만, 나와 비슷한 상황의 누군가는 새로운 입력 편의성 때문에 em dash 사용이 늘었을 거라 예상함- option + - 조합으로 입력되는 문자는 실제로는 en dash임, em dash는 shift + option + - 조합임
TeX에 익숙한 사람들에게는 --가 en dash, ---가 em dash 입력 방식임, triple hyphen도 리스트에 넣는 것이 좋겠음 - 리눅스에서는 Compose 키를 활성화하면 em dash와 en dash를 쉽게 넣을 수 있음
예: compose 키 + ---는 em dash, compose 키 + --.는 en dash
인용부호도 이런 식으로 조합해서 입력 가능함
또는 “Level 3 shift”나 “Alternate Characters Key(AltGr)”를 이용해 다양한 특수문자와 대시류를 입력 가능함 - 리눅스 환경에서도 Compose 키 설정만 하면 아래처럼 쉽게 대시 넣기 가능함
--. → –
--- → — - iOS에선 더블 대시를 입력하면 자동으로 em dash로 변환되는 기능이 있음 — 직접 더블 대시를 쳐봤음
- option + - 조합으로 입력되는 문자는 실제로는 en dash임, em dash는 shift + option + - 조합임
-
자신의 em dash 사용 횟수를 알고 싶으면 아래 스크립트를 사용하면 됨, username만 본인 것으로 바꾸면 출력해줌
내 경우 이 댓글 전까지 46회 사용했음curl -s "https://hn.algolia.com/api/v1/…; \ | jq -r '.hits[].comment_text' \ | grep -o "—" \ | wc -l
- 이 스크립트 정말 쓸만함, 나는 em dash뿐 아니라 en dash, --, 그리고 다른 문자열까지 다 체크해봄
-
em dash의 전체 댓글 대비 비율 기반 분석이 더 흥미로울 것 같음, 아마 나중에 가입한 유저들도 랭킹 상위에 오를 수 있을 것 같음
- 위 쿼리를 Google Cloud BigQuery에서 직접 돌려볼 수 있음.
안내된 GoogleSQL pipe syntax를 써서, 각 유저의 em dash 사용 비율로 정렬 가능함
(내 경우 전체 875 댓글 중 em dash가 258회(0.29 비율)로 516명 중 47위에 랭크됨)
타임스탬프 관련 정보까지 추출하려면 추가 쿼리로 first/avg timestamp 등을 볼 수 있음
참고로 em dash 최다 사용자는 2022년 1월 말에 활동을 시작한 점이 눈에 띔
- 위 쿼리를 Google Cloud BigQuery에서 직접 돌려볼 수 있음.
-
단순 raw 숫자 말고, 다음(단어)—(em dash)—(단어)처럼 단어 사이에 붙여서 쓰인 경우만 카운트하는 방식도 더 깊이 있는 통계가 될 것 같음
예를 들어 "(—)"나 공백이 있는 em dash, 러시아 사용자가 선호하는 방식 등을 배제 가능함
그리고 언어별로 웹페이지 타이틀에 "[페이지명] — [사이트명]" 패턴이 관행적으로 많이 사용됨- 러시아뿐 아니라 AP 스타일 가이드도 em dash 앞뒤에 공백을 두도록 규정함
영국 스타일 가이드(예: The Guardian)는 en dash + 공백을 추천하지만, 실제로는 em dash + 공백을 쓰는 경우도 많음
독일 등 다른 나라들도 em dash 사용 방식이 다양함, 미국과 러시아만 있는 게 아님
- 러시아뿐 아니라 AP 스타일 가이드도 em dash 앞뒤에 공백을 두도록 규정함
-
em dash 순위 놀이도 재미있지만, 전체 댓글 수가 많을수록 유리하니 em dash/댓글 비율이 더 의미 있지 않겠는지 생각함
- 방금 HuggingFace의 HN 데이터셋으로 비율로 직접 계산해봄, 2018년부터 em dash 비율이 급등함
특히 2024년 후반부터 다시 치솟는 경향이 눈에 띔
2025년 데이터는 없어서 아쉽지만, pre-genAI 시절부터 em dash 애호가들의 주장이 근거 없는 건 아니라고 느껴짐
- 방금 HuggingFace의 HN 데이터셋으로 비율로 직접 계산해봄, 2018년부터 em dash 비율이 급등함
-
em dash 식별 기준이 실제 유니코드 em dash를 말하는 것인지 궁금함
나 역시 90년대 논문 쓰려고 Latex를 배운 뒤로 --- 조합(트리플 하이픈)을 습관처럼 쓰고 있는데, 요즘은 이게 LLM이 생성한 텍스트의 단서가 되었는지도 궁금함- Mac에서는 em dash를 쉽게 넣는 단축키가 있음, 나는 한동안 Mac에서만 em dash를 제대로 입력했음
이걸 쓰는 게 “글쓰기 스타일에 신경 쓰는 Mac 유저”의 신호처럼 느껴졌음
현재는 Mac이 아니라 em dash를 바로 만드는 방법을 잘 모르겠고, 예전엔 Latex나 triple hyphen 조합뿐이었음 - 대조를 강조하는 서술 방식 자체가 진짜 LLM의 특징임
대부분 사람들이 잘 모르는 특수 타이포그래피 문자(em dash)를 써서 의심을 더하게 됨 - 내 Compose 키는 오른쪽 alt + 왼쪽 ctrl로 지정해두어, 이제 ---는 —로, --.는 –로 쉽게 만들 수 있음
참고로 en dash는 거의 언급조차 안 됨
- Mac에서는 em dash를 쉽게 넣는 단축키가 있음, 나는 한동안 Mac에서만 em dash를 제대로 입력했음
-
나는 em dash 애호가로서—우리 같은 사람이 몇 명은 있음—ChatGPT가 em dash를 적극 쓰는 현상에 딱히 기뻐할 수만은 없음
내 생각에는 RLHF 튜닝 특성상 em dash—en dash, hyphen과 명확히 구분되는—가 권위적인 문체 표식으로 인식된 것 같음- 영국식 공식 글쓰기에서는 ‘word en-dash word’가 전통임
‘wordem-dashword’는 미국식 스타일로 알고 있었고, 영국 내에서는 거의 본 적이 없었음
외부인은 en dash와 hyphen 차이를 잘 모르기도 하고, 매체도 이에 대해 엄격하지 않은 경향이 있음
ChatGPT가 em dash를 쓰는 건 미국식 데이터셋 영향이라는 추측도 있음
(나는 30년 경력의 프로 작가 출신이고, ChatGPT에는 em dash와 Title Case 제목은 쓰지 말라고 처음부터 지시함)
참고: The Guardian 스타일 가이드 - 개인적으로는 매우 불만임
“디테일에 신경 쓴 인간이 쓴 텍스트”의 신호였던 em dash가 이제 AI가 만든 흔한 산출물로 바뀌어버려 속상함
가끔은 LLM이 날 약올릴 목적으로 개발된 게 아닌가 생각까지 하게 됨
- 영국식 공식 글쓰기에서는 ‘word en-dash word’가 전통임