이런 주제가 바로 Hacker News에 꼭 필요한 최고급 콘텐츠임, 이런 이슈야말로 진짜 중요한 이슈임
Google BigQuery의 HN public 데이터셋을 이용해 em dash 사용량을 년도별로 쿼리해봄, 결과적으로 em dash 사용이 최근 계속 증가 추세임
2006년엔 거의 없었으나, 최근엔 댓글 당 1%를 넘어섬
유저별로 em dash 사용 비율을 뽑아볼 때 zmgsabst가 전체 댓글에서 가장 많이 사용했고, westoncb는 오래된 계정임
관련 링크: BigQuery HN 데이터셋, zmgsabst 프로필, westoncb 프로필
나이 많은 사람들, 예를 들어 마흔 이상 연령대는 em dash를 익숙하게 사용하고 자라왔음
zmgsabst의 댓글을 살펴보니 dash 주변에 공백을 넣어 쓰는 경향이 있음 — 이런 식임
한편, ChatGPT는 공백 없이—이렇게—쓴다는 점이 흥미로움
사람들의 --, 즉 더블 하이픈 사용 빈도로도 랭킹을 매겨보면 재미있을 것 같음
나 역시 오랜 리눅스 사용자이자 2022년 말 Apple Silicon 이후로는 맥북도 쓰기 시작했음
윈도우와 리눅스에서는 em-dash 입력이 꽤 번거로운 alt-code 프로세스지만, Mac에서는 option키가 3차 시프트 역할까지 해주어 option + -만 치면 en dash가 나옴
(사실 — 진짜 em dash 입력은 shift + option + -임)
나는 Mac을 쓰기 시작한 이후에도 em dash를 굳이 쓰진 않지만, 나와 비슷한 상황의 누군가는 새로운 입력 편의성 때문에 em dash 사용이 늘었을 거라 예상함
option + - 조합으로 입력되는 문자는 실제로는 en dash임, em dash는 shift + option + - 조합임
TeX에 익숙한 사람들에게는 --가 en dash, ---가 em dash 입력 방식임, triple hyphen도 리스트에 넣는 것이 좋겠음
리눅스에서는 Compose 키를 활성화하면 em dash와 en dash를 쉽게 넣을 수 있음
예: compose 키 + ---는 em dash, compose 키 + --.는 en dash
인용부호도 이런 식으로 조합해서 입력 가능함
또는 “Level 3 shift”나 “Alternate Characters Key(AltGr)”를 이용해 다양한 특수문자와 대시류를 입력 가능함
리눅스 환경에서도 Compose 키 설정만 하면 아래처럼 쉽게 대시 넣기 가능함
--. → –
--- → —
iOS에선 더블 대시를 입력하면 자동으로 em dash로 변환되는 기능이 있음 — 직접 더블 대시를 쳐봤음
자신의 em dash 사용 횟수를 알고 싶으면 아래 스크립트를 사용하면 됨, username만 본인 것으로 바꾸면 출력해줌
내 경우 이 댓글 전까지 46회 사용했음
이 스크립트 정말 쓸만함, 나는 em dash뿐 아니라 en dash, --, 그리고 다른 문자열까지 다 체크해봄
em dash의 전체 댓글 대비 비율 기반 분석이 더 흥미로울 것 같음, 아마 나중에 가입한 유저들도 랭킹 상위에 오를 수 있을 것 같음
위 쿼리를 Google Cloud BigQuery에서 직접 돌려볼 수 있음.
안내된 GoogleSQL pipe syntax를 써서, 각 유저의 em dash 사용 비율로 정렬 가능함
(내 경우 전체 875 댓글 중 em dash가 258회(0.29 비율)로 516명 중 47위에 랭크됨)
타임스탬프 관련 정보까지 추출하려면 추가 쿼리로 first/avg timestamp 등을 볼 수 있음
참고로 em dash 최다 사용자는 2022년 1월 말에 활동을 시작한 점이 눈에 띔
단순 raw 숫자 말고, 다음(단어)—(em dash)—(단어)처럼 단어 사이에 붙여서 쓰인 경우만 카운트하는 방식도 더 깊이 있는 통계가 될 것 같음
예를 들어 "(—)"나 공백이 있는 em dash, 러시아 사용자가 선호하는 방식 등을 배제 가능함
그리고 언어별로 웹페이지 타이틀에 "[페이지명] — [사이트명]" 패턴이 관행적으로 많이 사용됨
러시아뿐 아니라 AP 스타일 가이드도 em dash 앞뒤에 공백을 두도록 규정함
영국 스타일 가이드(예: The Guardian)는 en dash + 공백을 추천하지만, 실제로는 em dash + 공백을 쓰는 경우도 많음
독일 등 다른 나라들도 em dash 사용 방식이 다양함, 미국과 러시아만 있는 게 아님
em dash 순위 놀이도 재미있지만, 전체 댓글 수가 많을수록 유리하니 em dash/댓글 비율이 더 의미 있지 않겠는지 생각함
방금 HuggingFace의 HN 데이터셋으로 비율로 직접 계산해봄, 2018년부터 em dash 비율이 급등함
특히 2024년 후반부터 다시 치솟는 경향이 눈에 띔
2025년 데이터는 없어서 아쉽지만, pre-genAI 시절부터 em dash 애호가들의 주장이 근거 없는 건 아니라고 느껴짐
em dash 식별 기준이 실제 유니코드 em dash를 말하는 것인지 궁금함
나 역시 90년대 논문 쓰려고 Latex를 배운 뒤로 --- 조합(트리플 하이픈)을 습관처럼 쓰고 있는데, 요즘은 이게 LLM이 생성한 텍스트의 단서가 되었는지도 궁금함
Mac에서는 em dash를 쉽게 넣는 단축키가 있음, 나는 한동안 Mac에서만 em dash를 제대로 입력했음
이걸 쓰는 게 “글쓰기 스타일에 신경 쓰는 Mac 유저”의 신호처럼 느껴졌음
현재는 Mac이 아니라 em dash를 바로 만드는 방법을 잘 모르겠고, 예전엔 Latex나 triple hyphen 조합뿐이었음
대조를 강조하는 서술 방식 자체가 진짜 LLM의 특징임
대부분 사람들이 잘 모르는 특수 타이포그래피 문자(em dash)를 써서 의심을 더하게 됨
내 Compose 키는 오른쪽 alt + 왼쪽 ctrl로 지정해두어, 이제 ---는 —로, --.는 –로 쉽게 만들 수 있음
참고로 en dash는 거의 언급조차 안 됨
나는 em dash 애호가로서—우리 같은 사람이 몇 명은 있음—ChatGPT가 em dash를 적극 쓰는 현상에 딱히 기뻐할 수만은 없음
내 생각에는 RLHF 튜닝 특성상 em dash—en dash, hyphen과 명확히 구분되는—가 권위적인 문체 표식으로 인식된 것 같음
영국식 공식 글쓰기에서는 ‘word en-dash word’가 전통임
‘wordem-dashword’는 미국식 스타일로 알고 있었고, 영국 내에서는 거의 본 적이 없었음
외부인은 en dash와 hyphen 차이를 잘 모르기도 하고, 매체도 이에 대해 엄격하지 않은 경향이 있음
ChatGPT가 em dash를 쓰는 건 미국식 데이터셋 영향이라는 추측도 있음
(나는 30년 경력의 프로 작가 출신이고, ChatGPT에는 em dash와 Title Case 제목은 쓰지 말라고 처음부터 지시함)
참고: The Guardian 스타일 가이드
개인적으로는 매우 불만임
“디테일에 신경 쓴 인간이 쓴 텍스트”의 신호였던 em dash가 이제 AI가 만든 흔한 산출물로 바뀌어버려 속상함
가끔은 LLM이 날 약올릴 목적으로 개발된 게 아닌가 생각까지 하게 됨
Hacker News 의견
v1(제출된 URL)은 https://www.gally.net/miscellaneous/hn-em-dash-user-leaderboard.html임, 지금은 더 복잡한 em dash 분석을 위한 v2로 대체했음, 자세한 내용은 여기와 여기 참고 바람
이런 주제가 바로 Hacker News에 꼭 필요한 최고급 콘텐츠임, 이런 이슈야말로 진짜 중요한 이슈임
Google BigQuery의 HN public 데이터셋을 이용해 em dash 사용량을 년도별로 쿼리해봄, 결과적으로 em dash 사용이 최근 계속 증가 추세임
2006년엔 거의 없었으나, 최근엔 댓글 당 1%를 넘어섬
유저별로 em dash 사용 비율을 뽑아볼 때 zmgsabst가 전체 댓글에서 가장 많이 사용했고, westoncb는 오래된 계정임
관련 링크: BigQuery HN 데이터셋, zmgsabst 프로필, westoncb 프로필
한편, ChatGPT는 공백 없이—이렇게—쓴다는 점이 흥미로움
사람들의 --, 즉 더블 하이픈 사용 빈도로도 랭킹을 매겨보면 재미있을 것 같음
나 역시 오랜 리눅스 사용자이자 2022년 말 Apple Silicon 이후로는 맥북도 쓰기 시작했음
윈도우와 리눅스에서는 em-dash 입력이 꽤 번거로운 alt-code 프로세스지만, Mac에서는 option키가 3차 시프트 역할까지 해주어 option + -만 치면 en dash가 나옴
(사실 — 진짜 em dash 입력은 shift + option + -임)
나는 Mac을 쓰기 시작한 이후에도 em dash를 굳이 쓰진 않지만, 나와 비슷한 상황의 누군가는 새로운 입력 편의성 때문에 em dash 사용이 늘었을 거라 예상함
TeX에 익숙한 사람들에게는 --가 en dash, ---가 em dash 입력 방식임, triple hyphen도 리스트에 넣는 것이 좋겠음
예: compose 키 + ---는 em dash, compose 키 + --.는 en dash
인용부호도 이런 식으로 조합해서 입력 가능함
또는 “Level 3 shift”나 “Alternate Characters Key(AltGr)”를 이용해 다양한 특수문자와 대시류를 입력 가능함
--. → –
--- → —
자신의 em dash 사용 횟수를 알고 싶으면 아래 스크립트를 사용하면 됨, username만 본인 것으로 바꾸면 출력해줌
내 경우 이 댓글 전까지 46회 사용했음
em dash의 전체 댓글 대비 비율 기반 분석이 더 흥미로울 것 같음, 아마 나중에 가입한 유저들도 랭킹 상위에 오를 수 있을 것 같음
안내된 GoogleSQL pipe syntax를 써서, 각 유저의 em dash 사용 비율로 정렬 가능함
(내 경우 전체 875 댓글 중 em dash가 258회(0.29 비율)로 516명 중 47위에 랭크됨)
타임스탬프 관련 정보까지 추출하려면 추가 쿼리로 first/avg timestamp 등을 볼 수 있음
참고로 em dash 최다 사용자는 2022년 1월 말에 활동을 시작한 점이 눈에 띔
단순 raw 숫자 말고, 다음(단어)—(em dash)—(단어)처럼 단어 사이에 붙여서 쓰인 경우만 카운트하는 방식도 더 깊이 있는 통계가 될 것 같음
예를 들어 "(—)"나 공백이 있는 em dash, 러시아 사용자가 선호하는 방식 등을 배제 가능함
그리고 언어별로 웹페이지 타이틀에 "[페이지명] — [사이트명]" 패턴이 관행적으로 많이 사용됨
영국 스타일 가이드(예: The Guardian)는 en dash + 공백을 추천하지만, 실제로는 em dash + 공백을 쓰는 경우도 많음
독일 등 다른 나라들도 em dash 사용 방식이 다양함, 미국과 러시아만 있는 게 아님
em dash 순위 놀이도 재미있지만, 전체 댓글 수가 많을수록 유리하니 em dash/댓글 비율이 더 의미 있지 않겠는지 생각함
특히 2024년 후반부터 다시 치솟는 경향이 눈에 띔
2025년 데이터는 없어서 아쉽지만, pre-genAI 시절부터 em dash 애호가들의 주장이 근거 없는 건 아니라고 느껴짐
em dash 식별 기준이 실제 유니코드 em dash를 말하는 것인지 궁금함
나 역시 90년대 논문 쓰려고 Latex를 배운 뒤로 --- 조합(트리플 하이픈)을 습관처럼 쓰고 있는데, 요즘은 이게 LLM이 생성한 텍스트의 단서가 되었는지도 궁금함
이걸 쓰는 게 “글쓰기 스타일에 신경 쓰는 Mac 유저”의 신호처럼 느껴졌음
현재는 Mac이 아니라 em dash를 바로 만드는 방법을 잘 모르겠고, 예전엔 Latex나 triple hyphen 조합뿐이었음
대부분 사람들이 잘 모르는 특수 타이포그래피 문자(em dash)를 써서 의심을 더하게 됨
참고로 en dash는 거의 언급조차 안 됨
나는 em dash 애호가로서—우리 같은 사람이 몇 명은 있음—ChatGPT가 em dash를 적극 쓰는 현상에 딱히 기뻐할 수만은 없음
내 생각에는 RLHF 튜닝 특성상 em dash—en dash, hyphen과 명확히 구분되는—가 권위적인 문체 표식으로 인식된 것 같음
‘wordem-dashword’는 미국식 스타일로 알고 있었고, 영국 내에서는 거의 본 적이 없었음
외부인은 en dash와 hyphen 차이를 잘 모르기도 하고, 매체도 이에 대해 엄격하지 않은 경향이 있음
ChatGPT가 em dash를 쓰는 건 미국식 데이터셋 영향이라는 추측도 있음
(나는 30년 경력의 프로 작가 출신이고, ChatGPT에는 em dash와 Title Case 제목은 쓰지 말라고 처음부터 지시함)
참고: The Guardian 스타일 가이드
“디테일에 신경 쓴 인간이 쓴 텍스트”의 신호였던 em dash가 이제 AI가 만든 흔한 산출물로 바뀌어버려 속상함
가끔은 LLM이 날 약올릴 목적으로 개발된 게 아닌가 생각까지 하게 됨