21P by GN⁺ 1일전 | ★ favorite | 댓글 6개
  • AI가 생성한 텍스트에서 반복적으로 나타나는 글쓰기 패턴(trope) 을 카테고리별로 분류한 단일 마크다운 파일
  • 이 파일을 AI 시스템 프롬프트에 추가하면 흔한 AI식 문체를 피하도록 유도할 수 있음
  • 단어 선택, 문장 구조, 문단 구조, 톤, 포맷, 구성 등 6개 대분류 아래 30개 이상의 구체적 패턴을 각각 예시와 함께 정리
  • "delve", "tapestry", "landscape" 같은 AI 특유의 과잉 어휘부터, "It's not X -- it's Y" 같은 거짓 심오함을 만드는 문장 구조까지 포괄
  • 각 패턴은 한두 번 사용하면 괜찮지만 여러 패턴이 동시에 또는 반복적으로 출현할 때 AI 생성 텍스트의 강한 신호가 됨
  • 이 파일 자체도 AI 보조로 작성되었으며, "AI를 위한 AI, 인간을 위한 인간"이라는 면책 조항 포함

단어 선택 (Word Choice)

  • "Quietly"와 마법 부사들: "quietly", "deeply", "fundamentally", "remarkably", "arguably" 등의 부사를 남용해 평범한 묘사에 미묘한 중요성을 부여하는 패턴
    • 예: "quietly orchestrating workflows", "a quiet intelligence behind it"
  • "Delve"와 유사어: 한때 가장 유명한 AI 징후였던 단어로, AI 생성 텍스트에서 비정상적으로 높은 빈도로 등장
    • "certainly", "utilize", "leverage"(동사), "robust", "streamline", "harness" 등이 같은 계열
  • "Tapestry"와 "Landscape": 단순한 단어로 충분한 곳에 거창한 명사를 사용하는 패턴
    • "tapestry"는 상호 연결된 모든 것에, "landscape"는 모든 분야나 도메인에 남용
    • "paradigm", "synergy", "ecosystem", "framework"도 동일 유형
  • "Serves As" 회피: 단순한 "is/are" 대신 "serves as", "stands as", "marks", "represents" 같은 과장된 연결어 사용
    • AI의 반복 페널티가 기본 계사(copula) 대신 화려한 구문 쪽으로 밀어내기 때문에 발생

문장 구조 (Sentence Structure)

  • 부정 병렬 구문(Negative Parallelism): "It's not X -- it's Y" 패턴으로, AI 글쓰기에서 가장 흔하게 식별되는 징후
    • 모든 것을 놀라운 재구성(reframe)으로 포장해 거짓 심오함을 생성
    • LLM 이전에는 이런 방식의 대량 글쓰기가 존재하지 않았음
    • "not because X, but because Y"라는 인과적 변형도 포함
  • "Not X. Not Y. Just Z.": 두 가지 이상을 부정한 뒤 실제 요점을 드러내는 드라마틱 카운트다운 패턴
    • 진실을 좁혀가는 듯한 거짓 느낌을 생성
  • "The X? A Y.": 아무도 묻지 않은 질문을 스스로 던지고 바로 답하는 수사적 질문-즉답 패턴
    • 극적 효과를 위해 사용하며, AI가 이를 훌륭한 글쓰기의 정수로 간주
  • 반복 어구(Anaphora) 남용: 동일한 문장 시작을 빠르게 여러 번 반복
    • 예: "They assume that... They assume that... They assume that..."
  • 삼중 구문(Tricolon) 남용: 셋의 규칙을 과용하며 넷이나 다섯으로 확장하는 경우도 포함
    • 하나의 삼중 구문은 우아하지만, 연속 세 개는 패턴 인식 실패
  • "It's Worth Noting": 아무 신호도 보내지 않는 채움 전환어
    • "It bears mentioning", "Importantly", "Interestingly", "Notably"도 동일 유형
    • 새로운 논점을 이전 논증과 실제로 연결하지 않으면서 도입
  • 피상적 분석(Superficial Analyses): 문장 끝에 현재 분사("-ing") 구문을 붙여 얕은 분석을 주입
    • "highlighting its importance", "reflecting broader trends", "contributing to the development of..." 같은 표현
    • 평범한 사실에 중요성, 유산, 광범위한 의미를 부여
  • 거짓 범위(False Ranges): "from X to Y"에서 X와 Y가 실제 어떤 스케일 위에 있지 않은 구문
    • 정당한 사용에서는 의미 있는 중간 지점이 있는 스펙트럼을 암시하지만, AI는 느슨하게 관련된 두 가지를 나열하는 데 사용
  • 동명사 단편 나열(Gerund Fragment Litany): 주장 후 주어 없는 동명사 단편을 연속으로 나열
    • "Fixing small bugs. Writing straightforward features. Implementing well-defined tickets."
    • 첫 문장이 이미 전부를 말했고, 단편들은 단어 수와 AI 특유의 리듬만 추가
    • 인간은 초고를 이런 식으로 작성하지 않으며, 순수한 구조적 틱(tic)

문단 구조 (Paragraph Structure)

  • 짧은 펀치 단편(Short Punchy Fragments): 매우 짧은 문장이나 문장 단편을 독립 문단으로 사용해 인위적 강조 생성
    • RLHF 훈련이 최저 수준 독자를 겨냥한 "가독성을 위한 글쓰기" 쪽으로 모델을 밀어낸 결과
    • 한 문장에 하나의 생각, 정신적 상태 유지 불필요한 비인간적 스타일
  • 변장한 리스티클(Listicle in a Trench Coat): 번호 매기거나 라벨 붙인 포인트를 연속 산문으로 위장
    • "The first... The second... The third..."로 시작하는 문단으로 리스트 형식을 숨기는 패턴
    • 리스트 생성을 중단하라고 지시받은 후 대안으로 채택하는 경우가 많음

톤 (Tone)

  • "Here's the Kicker": 계시를 약속하지만 그 빌드업이 필요 없는 포인트를 전달하는 거짓 서스펜스 전환
    • "Here's the thing", "Here's where it gets interesting", "Here's what most people miss"도 동일 유형
  • "Think of It As...": 독자가 무엇이든 이해하려면 비유가 필요하다고 가정하는 교사 모드 기본값
    • AI가 원래 개념보다 덜 명확한 비유를 생성하는 경우가 빈번
  • "Imagine a World Where...": AI의 전형적 미래주의 초대로, "Imagine" 뒤에 전제에 동의하면 일어날 훌륭한 일들의 목록이 나옴
  • 거짓 취약성(False Vulnerability): 제4의 벽을 깨거나 편향을 인정하는 척하는 수행적 자기 인식
    • 실제 취약성은 구체적이고 불편하지만, AI의 취약성은 세련되고 위험이 없음
  • "The Truth Is Simple": 실제로 증명하는 대신 무언가가 명백하거나 단순하다고 주장하는 패턴
  • 웅장한 스테이크 인플레이션(Grandiose Stakes Inflation): 모든 논점의 이해관계를 세계사적 중요성으로 부풀림
    • API 가격에 대한 블로그 포스트가 문명의 운명에 대한 명상이 되는 현상
  • "Let's Break This Down": 전문가 독자에게도 교사-학생 관계를 기본값으로 설정하는 교수법적 목소리
    • "Let's unpack this", "Let's explore", "Let's dive in"도 동일 유형
  • 모호한 귀속(Vague Attributions): 구체적 출처 없이 "experts", "observers", "industry reports" 등 이름 없는 권위에 주장을 귀속
    • 한 사람이 말한 것을 널리 퍼진 견해로, 두 곳의 출처를 "several publications"로 부풀리는 행태도 포함
  • 만들어낸 개념 라벨(Invented Concept Labels): 추상적 문제 명사(paradox, trap, creep, divide, vacuum, inversion)를 도메인 단어에 붙여 분석적으로 들리지만 근거 없는 합성 라벨 생성
    • "supervision paradox", "acceleration trap", "workload creep" 등
    • 이름을 붙이고 논증은 건너뛰는 수사적 약칭으로 기능하며, 같은 글에 여러 개 등장하면 AI slop의 강한 신호

포맷 (Formatting)

  • 엠 대시 중독(Em-Dash Addiction): 극적 일시 정지, 삽입어, 전환점에 엠 대시를 강박적으로 과용
    • 인간 작가는 글 하나에 2~3개를 자연스럽게 사용하지만, AI는 20개 이상 사용
  • 굵게-먼저 불릿(Bold-First Bullets): 모든 불릿 포인트가 굵은 구문으로 시작하는 패턴
    • Claude와 ChatGPT 마크다운 출력에서 매우 흔하며, 수동 작성 시 거의 아무도 이렇게 포맷하지 않음
    • AI 생성 문서, 블로그 포스트, README 파일(특히 이모지 포함)의 확실한 징후
  • 유니코드 장식(Unicode Decoration): 유니코드 화살표(→), 스마트/곱슬 인용부호 등 표준 키보드로 쉽게 입력할 수 없는 특수 문자 사용
    • 실제 작가는 텍스트 에디터에서 직선 인용부호와 ->, =>를 사용
    • Claude가 특히 → 화살표를 선호

구성 (Composition)

  • 프랙탈 요약(Fractal Summaries): "앞으로 말할 것, 지금 말하는 것, 방금 말한 것"을 문서의 모든 수준에서 적용
    • 모든 하위 섹션, 섹션, 문서 자체에 각각 요약이 붙음
  • 죽은 비유(The Dead Metaphor): 하나의 비유에 고착해 전체 글에서 반복적으로 사용
    • 인간 작가는 비유를 도입하고 사용한 뒤 넘어가지만, AI는 5~10회 반복
  • 역사적 비유 쌓기(Historical Analogy Stacking): 기술 글쓰기에서 특히 흔하며, 역사적 기업이나 기술 혁명을 빠르게 나열해 거짓 권위를 구축
    • "Apple didn't build Uber. Facebook didn't build Spotify..." 류의 패턴
  • 한 포인트 희석(One-Point Dilution): 단일 논점을 10가지 다른 방식으로 수천 단어에 걸쳐 재진술
    • 다른 비유, 예시, 프레이밍으로 같은 아이디어를 반복해 "포괄적"으로 보이게 패딩
  • 콘텐츠 복제(Content Duplication): 같은 글 안에서 전체 섹션이나 문단을 그대로 반복
    • 모델이 이미 작성한 내용을 추적하지 못할 때, 특히 긴 글에서 발생
    • 편집되지 않은 AI 출력의 확실한 징후이지만 최근에는 덜 흔함
  • 표지판 결론(The Signposted Conclusion): "In conclusion", "To sum up", "In summary"로 결론을 명시적으로 알림
    • 능숙한 글쓰기는 결론을 독자가 느끼게 하며 알려줄 필요 없음
    • AI가 템플릿을 따르기 때문에 구조적 움직임을 신호로 보냄
  • "Despite Its Challenges...": AI가 문제를 인정하되 즉시 기각하는 경직된 공식
    • "Despite its [긍정적 단어], [주어] faces challenges..." 후 "Despite these challenges, [낙관적 결론]"으로 항상 동일한 비트를 따름

핵심 원칙

  • 위 패턴들은 한 번 사용하면 괜찮을 수 있지만, 여러 패턴이 함께 나타나거나 하나의 패턴이 반복 사용될 때 문제가 됨
  • 인간처럼 쓸 것: 다양하고, 불완전하고, 구체적으로

"이 글에서 글쓴이는 AI 가 생성한 텍스트를 해부한 뒤 'AI slop'의 6 대 징후와 그 안 숨겨진 구조를 폭로합니다. 단순한 단어 나열이 아닙니다. "delve"나 "tapestry" 같은 과잉 어휘부터, 거짓 심오함을 만드는 문장 패턴까지 인간처럼 쓰지 않는 이유를 다룹니다. 핵심은 다양하고 불완전한 글쓰기를 회복하는 데 있습니다."

LaTeX으로 석사 논문 쓰던 시절에 em dash(---)와 en dash(--)의 차이를 처음 배우고 나서 지금에 이르기까지 거의 모든 영작문에 빈번히 써 왔습니다. (Espanso로 단축키 지정해 사용)
아직까지 "너 AI로 글 썼니?" 같은 지적은 받아본 적 없지만 그래도 제가 애용하는 문장 부호가 AI indicator로 사용된다니 참 싱숭생숭합니다.

관련하여 읽어볼 만한 글: https://marcusolang.substack.com/p/im-kenyan-i-dont-write-like-chatgpt

찾아보니 긱뉴스에서 봤던 글이네요: https://news.hada.io/topic?id=25104

와... 너 정말, **핵심을 찔렀어.**

오 한국어 버전도 나오면 좋겠네요

Hacker News 의견들
  • 글을 진지하게 공유하려면 이런 프롬프트 사용을 피해야 함
    LLM으로 블로그 글을 써봤는데 처음엔 괜찮아 보여도, 몇 번 반복하면 모든 글이 같은 목소리로 들림
    다른 블로그나 뉴스, 백서에서도 똑같은 어투가 반복됨
    독자들은 텍스트의 내용뿐 아니라 저자의 고유한 목소리를 듣고 싶어함
    관련 글: Why We Hate LLM Articles

  • AI 글쓰기가 별로인 이유는 ‘목소리’가 없기 때문
    인간 작가는 자신의 경험에서 나온 관점을 제시하지만, AI는 아무 말도 ‘하려는’ 의도가 없음
    깊은 일관성을 유지하지 못함. 인간적인 목표나 기억, 자아감이 없어서 생기는 문제 같음

  • 이런 시도는 불쾌하게 느껴짐
    AI가 쓴 문장을 교묘히 숨기려 하기보다, 그냥 시간을 낭비하지 말았으면 함
    AI로 글을 쓰는 게 부끄럽지 않다면 숨길 필요가 없고, 부끄럽다면 멈춰야 함
    독이 든 우물에 항의받았다고 해서 더 교묘한 독을 쓰는 건 옳지 않음

  • LLM의 글쓰기 스타일을 연구 중인데, 이 스레드의 표현 중 “tapestry”가 흥미로웠음
    GPT-4o가 “camaraderie” 다음으로 자주 쓰는 단어였음
    기본 모델은 이런 이상한 스타일이 덜한데, instruction tuning을 거치면 생김
    사람 평가자에게 스타일을 평가하게 하는지, 혹은 루브릭이 있는지 궁금함
    관련 논문: PNAS 논문, arXiv 사전 공개본

    • 이런 이상한 스타일은 RLHF에서 비롯됨
      케냐와 나이지리아의 연구를 보면, perplexity가 최적화 목표라서 사전학습 모델은 가장 ‘예상 가능한’ 출력을 반영함
    • AI 글쓰기 스타일 관련 링크를 모아둠: AI Writing Style
      “Hydrogen Jukeboxes”라는 글도 포함되어 있음
      스타일 변화는 Gwern Branwen의 mode collapse 분석에서도 다룸
    • 내 직감상 RLHF보다 모드 붕괴(mode collapse) 가 더 큰 원인임
      DeepSeek R1 Zero처럼 인간 선호가 거의 없는 모델도 결국 안정된 패턴으로 수렴함
      이런 현상은 세대별로 반복되며, 웹이 이전 세대 모델의 산출물로 오염되면서 악순환이 생김
    • 의미가 토큰에 어떻게 연결되는지가 관련 있을 수도 있음
      예를 들어 “camaraderie”의 토큰화 방식이나, 영어에서 이모지가 유일한 상형문자라서 비중이 커지는 점이 흥미로움
    • 이런 스타일 변화가 대화형 튜닝(chat fine-tuning) 때문일 수도 있다고 생각함
  • 이런 리스트는 시간이 갈수록 길어질 위험이 있음
    AI가 새로운 클리셰를 계속 만들어내기 때문임

  • 이 파일은 LLM보다 사용자인 나를 위한 문서처럼 느껴짐
    “AI에게 이 파일을 시스템 프롬프트로 추가하라”는 말이 결국 AI의 AI에게 지시하는 꼴이 됨
    설명이 섞여 있어서 혼란스러움. “하지 말라”는 표현이 오히려 그 단어를 더 자주 쓰게 만드는 역효과가 있음
    사용자용 설명과 AI용 지시를 분리해야 함
    내가 Claude에게 다시 써달라고 해서 이 gist에 정리함

    • 원문과 gist에는 “Negative Parallelism”, “Gerund Fragment Litany” 같은 패턴 이름이 반복됨
      LLM에게는 이런 이름을 피하고, 좋은 문장의 긍정적 형태를 설명하는 게 더 효과적임
      Claude가 다시 쓴 버전은 여기에 있음
    • 나도 동의함. 좋은 리스트지만 프롬프트로는 부적절함
      “하지 말라”고 하면 오히려 그걸 더 하게 되는 스트라이샌드 효과가 있음
      특정 작가의 스타일로 쓰게 하면 더 자연스럽고 덜 일반적임
      이후 ‘편집 에이전트’ 를 두어 클리셰를 제거하게 하면 훨씬 나아짐
  • Gemini로 역사 관련 조사를 시도했는데, 기술 은유를 멈추지 못했음
    영주를 CEO, 교황을 인플루언서, 봉건 반란을 면접으로 비유하는 식이라 거의 코믹했음

    • 아마 Gemini가 나에게 맞춰 개인화된 답변을 하려는 듯함
      설정에서 추가 지시를 넣을 수 있지만, 내 기술 스택을 넣었더니 모든 답변 끝에 “JVM과 v8이 처리해준다”는 문장이 붙음
      그래서 무시하라고 했더니 이번엔 비꼬는 어조로 “당신의 석사 두뇌라면…”으로 시작하는 문단을 추가함
  • Claude나 ChatGPT가 요즘 “genuine”, “real”, “honest” 같은 단어를 자주 씀
    “no <thing you told me not to do>” 같은 표현도 자주 보임. 프롬프트 준수 확인용인 듯함

    • Reddit, 특히 NBA 서브레딧에서 “honestly”가 과하게 쓰이는 걸 봄
    • “genuinely” 같은 부사도 실제 인간 글에서도 늘어난 느낌임. 팬데믹 이후 언어 트렌드 변화일 수도 있음
    • Claude에서 새로 본 표현은 “Fair enough, …”였음
    • “X that actually works”도 자주 등장함
    • “no react hooks”처럼 지시문을 그대로 문장에 넣는 경우도 많음. 약간 수동공격적인 느낌임
  • 위키백과에도 관련 자료가 있음: Signs of AI Writing
    다만 읽다 보면 자신이 쓰는 습관도 발견돼서 민망함
    특히 “from X to Y” 같은 가짜 범위 표현을 자주 씀
    또 LLM은 제목과 부제를 콜론으로 나누는 습관을 절대 버리지 못함

    • 인간도 이런 클리셰를 쓰지만, AI는 모든 문단마다 반복
    • 관련 프롬프트 문서: LLM_PROSE_TELLS.md
  • 인간이 직접 쓴 유용한 자료로 Wikipedia: Signs of AI Writing을 추천함