# 단순히 X가 아니라, Y다

> Clean Markdown view of GeekNews topic #30090. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30090](https://news.hada.io/topic?id=30090)
- GeekNews Markdown: [https://news.hada.io/topic/30090.md](https://news.hada.io/topic/30090.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-02T09:28:36+09:00
- Updated: 2026-06-02T09:28:36+09:00
- Original source: [mail.cyberneticforests.com](https://mail.cyberneticforests.com/its-not-just-data-its-post-training/)
- Points: 3
- Comments: 1

## Topic Body

- LLM이 즐겨 쓰는 **"It's not X, it's Y" 부정 대조 구문**은 본래 대비를 설정하고 기존 가정을 재구성하는 데 유용한 수사 기법  
- 최근 모델의 과용으로 이 구문이 **나쁜 글쓰기**로 낙인찍혔으나, 수사 장치는 담는 내용에 따라 가치가 달라짐  
- AI 탐지기와 Grammarly 같은 도구는 이런 패턴을 색출해 **기계가 인간처럼 쓰도록 다시 인간이 쓰게 만드는 역설** 유발  
- 이 구문의 확산 원인으로 **RLVR(검증된 보상을 통한 강화학습)** 지목, 모델이 정답에 도달할 때 쓴 언어가 강화되는 방식과 연결  
- 언어 패턴 자체를 평가 대상으로 삼으면 **Goodhart의 법칙**처럼 언어가 좋은 언어이기를 멈추며, 기계 판단에 의존하지 말고 비판적 사고가 필요함  
  
---  
  
### 부정 대조 구문과 그에 대한 반발  
  
- LLM이 끌리는 **negative parallelism(부정 대조)** 구문은 대비를 설정하는 기능을 가지며, "당신은 저렇다고 생각하지만 사실은 이렇다"처럼 가정을 재구성할 때 특히 유용  
- 이 구문은 소셜 미디어, 특히 LinkedIn에 만연해 있으며, **자동 언어 생산에 대한 전쟁** 속에서 반발 촉발  
  - em-dash 사용, _delve_·_quietly_·_genuinely_ 같은 단어, 3개 항목 나열 등이 봇의 징표로 의심받음  
- 최근 모델의 과용으로 많은 이가 이를 나쁜 글쓰기로 규정했으나, JFK의 "조국이 당신에게 무엇을 해줄지 묻지 말고, 당신이 조국에 무엇을 할 수 있는지 물으라"는 문장도 같은 기법이며 누구도 게으른 글이라 부르지 않음  
  - 수사 장치는 담는 내용에 따라 게으르거나 영감 있는 것이 될 뿐  
  
### 자동 언어 생산과 탐지 도구의 역설  
  
- AI 탐지기는 이런 패턴을 찾아 마녀사냥에서 보호한다고 주장하나, 자신의 글을 **Grammarly**에 넣으면 AI 탐지기가 표시할 단어 패턴을 분석해 수정안 제시  
  - 이는 Grammarly에 대신 글 쓸 권한을 주고, 글의 리듬과 의도를 잃게 만듦  
- Grammarly는 한 섹션에서 **27개 표현**을 수정 대상으로 지적  
  - "automated language production"을 AI일 확률 11배 높음으로 표시, "against mechanized language synthesis"로 대체 제안  
  - "align with"는 AI 생성 확률 43배 높음으로 표시, 인간은 "corresponds"를 쓴다고 제안  
  - 작은 제안이 쌓여 결과가 자신이 선택하지 않은 글이 됨, 인간처럼 들리려는 기계가 인간 목소리를 대체  
- 또 다른 AI 탐지 업체 **Pangram**에 $20을 지불해 투고 전 논문이 AI 생성이 아님을 확인  
  - 자신이 안 썼는지 알기 위해서가 아니라, 표시당하지 않을 것이라는 통보를 받기 위해 지불, 이를 사실상 **갈취(extortion)** 로 규정  
  - Pangram은 high·very likely·somewhat likely·human의 4단계 점수로 진실성을 범주화  
  
### 추론에 적대적인 문화와 사후 학습  
  
- 기계를 이해하려는 본능은 학습 데이터를 들여다보는 것이나, 그 데이터는 더 이상 "그냥 웹"이 아니며 웹은 원재료일 뿐 무겁게 가공됨  
- **사후 학습(Post-training)** 은 모델을 설계 목적에 맞게 최적화  
  - **RLHF(인간 피드백 기반 강화학습)**: 인간이 응답에 순위를 매기면 시스템이 그런 응답을 강조  
  - **RLVR(검증된 보상을 통한 강화학습)**: 더 기이하며 "It's not X, it's Y" 구문이 자주 나타나는 원인으로 의심됨  
- 이 언어를 게으르다고 일축하면 왜 도처에 나타나는지 이해를 방해, 사고를 위한 강력한 틀을 모델의 사고 능력으로 착각하게 됨  
  - 언어가 한 일을 연산의 공으로 돌리는 셈  
  
### RLVR의 작동 방식  
  
- RLVR은 단어를 감시해 하위 프로세스를 작동시키는 구조가 아니라, 일반 모델처럼 학습된 뒤 **토큰을 예측**  
  - 토큰 예측은 학습 데이터의 수학적 분포에 따라 후보 목록을 만들고, 앞선 단어에 비춘 가능성으로 순위를 매기는 과정  
- RLVR은 모델이 수학 문제를 풀어가며 해법에 이르는 과정을 글로 쓰게 하여, 우리가 소리 내어 생각할 때 쓰는 언어를 재현  
  - 정답에 도달했을 때 그 과정에서 가장 자주 쓴 언어가 완성된 모델에서 강조됨, 이것이 업계가 부르는 **reasoning(추론)** 의 일부  
- ## "이상한 개" 비유  
  - 폰이 꺼진 상태에서 친구가 "그 이상한 개를 본 게 무슨 요일이었지?"라고 묻는 상황 제시  
    - "목요일이었어" → 친구: "아니야, 목요일엔 내가 출장이었어" → "그럼 수요일, 친구 생일 파티 가는 길에 봤잖아" → 친구: "맞는데 파티는 금요일이었어, 그러니 금요일에 본 거야"  
  - 두 사람은 사진으로 검증 가능한 정답에 **언어를 통해 도달**, 첫 직감("목요일")은 모델이 예전에 멈추던 첫 추측에 해당  
  - 실제 기억과 경험을 가진 두 사람과 달리, 모델은 언어를 점점 길게 확장하며 추론의 **패턴을 복제**, 언어를 통해서가 아니라 언어 안에서 숙고를 재연  
- "suppose…", "because", "consider", "alternatively", "wait" 같은 **고엔트로피(high-entropy)** 단어가 더 긴 사변적 구절을 유발  
  - 대비·예외·추상을 끌어오는 언어로 이어지며, 수학 문제 정답에 도달하면 더 자주 나타나도록 강화됨  
  
### 우리가 추론하는 이유  
  
- "이상한 개" 같은 대화의 요점은 달력 날짜 식별이 아니라 **회상을 여는 것**, 기억을 재구성하고 맥락을 음미하며 친구 간 연결을 깊게 하는 데 있음  
- LLM에서 쓰이는 추론 정의는 질문의 요점이 답을 얻는 것이고, 답은 검증 가능하며, 즉각적 종결에서 잃을 것이 없다고 가정  
  - 이는 글쓰기에 실제 영향을 미치며, 언어 모델로 사고를 빠르게 프로토타이핑할 때 **의심에 대한 개방성**을 잃음  
  - 모호함·의심·불확실성은 어떤 사고 방식에서 즉각적 답보다 더 중요  
- AI 탐지기가 텍스트를 AI 생성으로 표시하는 것은 추론의 구조적 패턴을 따르기 때문인지 의문, **Pangram과 추론 모델 모두 인간이 글을 쓰며 추론하는 구조적 패턴을 탐지**  
  - Pangram 모델은 2021년 이전 데이터로 학습한 뒤 동일 텍스트의 AI 생성 버전을 학습에 삽입  
- 기계처럼 보인다고 공개적으로 망신을 주면, 사람들이 두려움에 "AI 글쓰기"로 내면화한 구조를 피하게 되어, 추론을 위한 언어가 감시받아야 한다는 신호 전달  
  - 결국 모델이 우리에게서 배운 구조, 즉 **논증에 효과적인 도구**를 비껴가게 만들어, 비판적 사고의 도구가 가장 필요할 때 그것을 꺼내게 됨  
  
### 측정이 목표가 될 때  
  
- 영국에서 **AI 기반 에세이 평가 도구**가 인간 채점자와 비교 테스트됨  
  - 이 시스템은 에세이 길이, 어휘 범위, 문장 복잡성에 기반해 높은 점수를 주었고, 이는 학문적 기준과 무관한 경우가 많음  
  - 이런 특성은 RLVR 기반 추론과 닮은 AI 추론의 특징, 즉 **LLM이 엔지니어가 LLM을 평가하는 기준으로 인간을 채점**하는 셈  
- 경제학의 **Goodhart의 법칙**: "관찰된 통계적 규칙성은 통제 목적으로 압력을 받으면 붕괴하는 경향", 즉 측정이 목표가 되면 좋은 측정이기를 멈춤  
  - LLM에 적용하면 "언어의 측정이 목표가 될 때, 좋은 언어이기를 멈춤"  
- 내용보다 언어 패턴을 평가하는 것은 위험하며 생성과 탐지 모두 이를 부추김, 자동 채점은 그 중간  
  - 추론의 행위가 아닌 추론의 형식을 보상하면 그것을 더 유혹적이고 흔하게 만들고, 형식을 처벌하면 추론 자체를 처벌할 위험, 따라서 기계 판단에 미루지 말고 모든 경우에 **비판적으로 사고**해야 함  
  
### 자동화된 사고에 반대하며  
  
- "잘못한 게 없으면 걱정할 것도 없다"는 오랜 논리에 동의하지 않음  
  - 2018년 이래 자동 감시 시스템 정확도로 **99.8%** 가 인용되었으나, Arvind Narayanan에 따르면 이는 논문 단위 수치로 사용할 때마다 누적  
  - 그 결과 대학생의 **최대 10%** 가 거짓으로 고발될 수 있음, 모든 텍스트를 AI 검사에 돌리면 거짓 양성이 훨씬 큰 규모로 발생  
- 이 모델들은 실질적 권한을 집중시키고, 기업은 우리를 대신해 추론하겠다고 약속  
  - 두 줄짜리 문구를 AI 해석기에 돌려 결과를 온라인에 올리고 "봐, 표절자야"라고 말할 때 위험한 것을 정상화  
- AI 탐지 압박에 따른 재작성과 자기검열 문화는 **인간 표현 보호의 정반대**, 기계의 유죄 판단 능력에 대한 신뢰를 정상화하는 데 저항해야 함  
  - AI로 글을 쓰는 것이 최악의 경우 정신의 산업화라면, AI 탐지는 최악의 경우 **사고에 대한 감시 시스템**이 됨

## Comments


### Comment 58775

- Author: neo
- Created: 2026-06-02T09:28:37+09:00
- Points: 1

###### [Lobste.rs 의견들](https://lobste.rs/s/4xllsb/it_s_not_just_x_it_s_y) 
- 어떤 자동 시스템이 글을 **AI 같음**으로 평가했다는 이유만으로 논문이 자동 탈락한다면 악몽 같고, 내 일에는 이런 문제가 없어 다행임  
  추론의 언어가 LLM 출력을 유창하고 설득력 있게 보이게 할 뿐 아니라, 애초에 작동하게 만들거나 적어도 더 잘 작동하게 만든다는 지점이 좋았음. 이런 기법은 인간에게도 잘 통하고, 그래서 **5 Whys 분석** 같은 기법이 효과가 있음  
  반면 게으른 저품질 글은 여전히 짚어내야 한다고 봄. 구조나 문체 장치에만 집중하지 않아도 가능함. 내 경우 보통 선의로 글을 읽기 시작하고, 몇 단락 뒤에도 저자의 핵심을 잡기 어렵다면 그때 전형적인 신호를 찾기 시작하는데, 꽤 자주 발견하게 됨

- 흥미로운 글이지만, 실제로는 무언가를 생각하기 위한 **추론용 텍스트**와, 그 추론이 끝난 뒤 전달하려고 쓰는 **완성된 텍스트**를 구분하겠음  
  예시에서는 생각하는 과정에서 “목요일이 아니라 수요일이었어”라고 말할 수 있지만, 남에게 메시지를 보낼 때는 그냥 “목요일이었어”라고 쓰게 됨  
  그래서 학계나 직장에서 실제 산출물인 보고서나 이메일은 주제에 대해 추론할 때 쓰는 언어를 쓰지 않을 테고, 제대로 썼다면 LLM처럼 보이지 않아야 함. 초안이나 개인 메모는 그럴 수 있지만, 최종 발송물은 아님
  - 하지만 공식 산출물 자체가 **추론 과정**이라면 어떨까? 추론 과정이 글의 핵심 일부이거나 전부인 문서를 여러 번 써봤음

- 생성형 AI를 강하게 비판하는 편이지만, 영어가 모국어가 아닌 연구자가 글을 다듬는 용도로는 **학술 글쓰기**에서 쓸모가 있다고 봄  
  다만 거의 완성된 잘 구조화된 초안이 필요하지, 단순한 글머리표만 넣으면 환각이나 딱딱하고 부자연스러운 표현이 나오게 됨  
  최근 몇 년간 중국이나 인도 같은 국가에서 온 저품질 논문을 많이 심사하다 보니, 이들 국가 출신이 자주 쓰는 비원어민식 영어 관용 표현에 약간 편향이 생긴 것도 느꼈음. 안타까운 점은 내가 심사한 최고의 논문 중 일부도 이 국가들에서 나왔다는 것임  
  그런 의미에서 영어가 학계의 표준 언어가 된 만큼, LLM은 높은 언어 수준을 표준화하고 **심사 과정의 편향**을 줄이는 데도 도움을 줄 수 있음
  - 비원어민 영어 사용자가 글을 다듬는 데 LLM을 쓸 수 있다는 논리는 전혀 받아들일 수 없음. 논문은 정밀해야 하고 저자의 의도를 정확히 담아야 함  
    영어가 모국어가 아닌 직원이 많은 기관에는 보통 글쓰기 자문 담당자가 있어, 좋은 문장을 만들 뿐 아니라 더 중요하게는 작성된 내용이 저자의 의도와 맞는지 확인함. 이를 LLM에 맡기면 의미가 미묘하게 바뀌고, 사실 오류나 부정확한 주장 표현 때문에 결국 저자에게 더 나쁜 결과를 낳을 수 있음  
    언어 자문을 제공하지 않는 기관은 직원에게 불리한 환경을 만드는 셈이고, 독립 연구자는 다른 이유로도 이미 더 불리한 경우가 많음  
    비원어민 특유의 표현에 대한 무의식적 편향은 어느 정도 피하기 어렵지만, 논문 심사에서는 언어 문제가 명확하면 상당한 선의의 여지를 주고, 언어 문제 때문에 불명확하다고 본 부분을 수정 지시로 남기는 편이었음. 이건 스스로 점검하면서 관리해야 함  
    서툰 언어 사용은 아이디어, 방법론, 결과를 어느 정도 흐릴 수 있지만, LLM은 실제로 내가 심사한 논문들에서처럼 이를 **사실과 다른 내용**으로 망가뜨릴 수 있고, 결국 반박과 수정이 필요하거나 논문이 바로 거절될 수도 있음. 이 문제를 다루는 더 나은 방식이 있으므로 LLM 사용을 권해서는 안 됨  
    게다가 이것이 **표절**인지 아닌지는 아직 열린 문제임. 훨씬 큰 논쟁이고, 기본 사실관계조차 합의되지 않는 경우가 많음. 일부 학회나 저널은 이런 이유로 LLM 보조를 금지하므로, 그 규정도 존중해야 함
  - 더 큰 문제는 이제 사람들이 LLM이 썼는지 아닌지를 둘러싼 히스테리 때문에 **자연스러운 문체**를 피하도록 사실상 강요받는다는 점임  
    아이러니하게도 회사들은 이 히스테리를 수익화하는 데 시간을 낭비하지 않았고, LLM을 써서 글이 진짜 인간이 쓴 것인지 판정하면서 돈을 벌고, 무엇이 허용 가능한 글쓰기인지 정하는 심판이 되어버렸음  
    사람들이 게으르게 문체만 보지 말고 내용에 제대로 관여하기 시작하면 이 문제 전체가 사라질 것이라는 저자의 지적은 맞음