# LLM이 우리의 문자 언어를 왜곡하는 방식

> Clean Markdown view of GeekNews topic #29183. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29183](https://news.hada.io/topic?id=29183)
- GeekNews Markdown: [https://news.hada.io/topic/29183.md](https://news.hada.io/topic/29183.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-05T11:01:34+09:00
- Updated: 2026-05-05T11:01:34+09:00
- Original source: [sites.google.com](https://sites.google.com/view/llmwritingdistortion/home)
- Points: 1
- Comments: 1

## Topic Body

- LLM은 글쓰기 보조에서 효율을 높이지만, 인간의 글을 수정할 때 결론·**입장**·논증 유형을 바꾸고 인간 편집과 다른 방향의 **의미 변화**를 만듦
- 사용자 연구에서 LLM을 많이 쓴 사람들은 결과에 만족하면서도 자신의 **목소리**와 **창의성**이 통계적으로 유의미하게 줄었다고 답해 선호의 역설을 보임
- ArgRewrite-v2의 인간 작성 에세이 **86개**를 세 가지 LLM(gpt-5-mini, gemini-2.5-flash, claude-haiku)으로 편집하자, 최소 수정·문법 수정 지시만으로도 어휘와 의미가 크게 바뀜
- LLM 작성·수정 글은 더 형식적이고 비인칭적인 문체로 이동하며, 명사·형용사와 감정적·논리적·통계적 언어가 늘고 **대명사**와 개인 경험 기반 논증은 줄어듦
- ICLR 2026 동료평가 리뷰 **1만 8천 개** 분석에서 AI 생성으로 판정된 리뷰는 전체의 **21%** 였고, 인간 리뷰보다 점수를 10% 높게 주며 재현성과 확장성에 더 많이 초점을 맞춤

---

### 연구 개요
- LLM은 전 세계 **10억 명 이상**이 사용하며, 가장 흔한 사용처는 글쓰기 보조임
- LLM은 큰 효율 향상을 줄 수 있지만, 실제로 사용자가 원하는 글을 쓰는지에 대한 의문이 제기됨
- 많은 사용자가 LLM 문체의 “느낌”은 알아차리지만, LLM이 글의 **의미**를 얼마나 왜곡하는지는 잘 인식하지 못함
- 분석 대상은 세 가지 자료임
  - 인간 사용자 연구
  - 인간이 쓴 논증 에세이 데이터셋
  - 상위 머신러닝 학회 리뷰
- 연구 자료는 [Paper](https://arxiv.org/abs/2603.18161)와 [Code](https://github.com/)로 제공됨

### 주요 발견
- LLM은 글의 결론을 바꾸며, **입장**과 **논증 유형**도 함께 바꿈
- 사용자들은 결과에 만족한다고 답하면서도 자신의 **목소리**와 **창의성**이 통계적으로 유의미하게 줄었다고 답해 선호의 역설을 보임
- LLM은 단순 문법 수정만 지시받아도 인간 편집보다 더 큰 **의미 변화**를 일으킴
- 2026년 International Conference of Learning Representations(ICLR) 리뷰에서도 영향이 나타남
  - AI 생성으로 판정된 동료평가 리뷰는 전체의 **21%** 였음
  - 이 리뷰들은 논문 수락과 거절의 이유에서 인간 리뷰와 유의미하게 다른 과학적 기준에 초점을 맞춤
- LLM이 사회에 통합될수록 이런 미묘한 의미 변화는 정치, 문화, 과학, 친구와 가족 간 커뮤니케이션까지 바꿀 수 있음
- 연구 대상은 논증적 글쓰기이지만, 결과는 다른 형태의 글쓰기와 의사소통에도 일반화될 수 있음

### LLM 편집은 인간 편집과 다른 방향으로 글을 이동시킴
- LLM이 인간의 글을 수정하면, 같은 에세이를 사람이 편집했을 때와 매우 다른 **동질화된 변화**가 생김
- 반사실 분석은 한 텍스트를 LLM이 편집한 결과와 사람이 편집했을 결과를 비교함
- 인간 편집의 경우
  - 첫 초안은 밝은 회색 점으로 표시됨
  - 전문가 피드백을 받은 뒤의 두 번째 초안은 어두운 회색 점으로 표시됨
  - MiniLM-L6 의미 임베딩 공간을 PCA로 투영해 변화가 시각화됨
- LLM 편집의 경우
  - 원래 인간이 쓴 에세이에 전문가 피드백과 여러 프롬프트가 주어짐
  - 최소 수정만 지시해도 모든 에세이에 큰 변화가 생김
  - 변화 방향은 인간의 글쓰기 방식에서 벗어나 일관된 방향으로 이동함
- ArgRewrite-v2 데이터셋 예시는 LLM을 사용한 글쓰기가 에세이의 결론을 바꾸고 인간의 목소리를 제거하는 방식을 보여줌

### 방법론과 데이터셋
- ## 인간 사용자 연구
  - LLM 사용이 글쓰기 과정에 미치는 영향을 파악하기 위해 사용자 연구를 진행함
  - **55명**은 LLM을 사용할 수 있었고, **45명**은 LLM 접근 권한이 없었음
  - 세션 중 많은 사용자가 LLM 사용을 자발적으로 피했기 때문에, 실제 사용 선택을 기준으로 결과를 조건화함
  - 두 그룹으로 나눔
    - LLM-Influenced: LLM을 쓰지 않았거나 정보 탐색 용도로만 사용한 사람들
    - LLM: LLM을 광범위하게 사용한 사람들
  - 그룹 구분은 평가와 분석 전에 사전적으로 이루어짐
  - 구분에는 대화 기록, 최종 에세이, 자가 보고 사용 점수가 사용됨
- ## ArgRewrite-v2
  - 2021년에 수집된 인간 작성 에세이 **86개**를 사용함
  - 이 데이터는 LLM이 널리 공개되기 전 작성된 글임
  - 세 가지 프로덕션 LLM을 사용해 에세이를 편집하도록 프롬프트함
    - gpt-5-mini
    - gemini-2.5-flash
    - claude-haiku
  - 다섯 가지 수정 유형을 적용함
    - 일반 수정
    - 최소 수정
    - 문법 수정
    - 완성
    - 확장
  - LLM 생성 초안과 인간 작성 수정본을 여러 차원에서 비교함
    - 의미
    - 어휘 사용
    - 품사 분포
    - 감정적 어조
    - 문체적 특징
- ## ICLR 2026 리뷰 분석
  - ICLR 2026의 동료평가 리뷰 **1만 8천 개**를 분석함
  - 완전히 인간이 쓴 리뷰 하나와 완전히 LLM이 생성한 리뷰 하나가 있는 논문을 선택함
  - LLM-as-a-Judge 분류기를 사용해 각 리뷰가 인용한 강점과 약점을 식별함
  - 인간과 LLM이 부여한 점수를 비교함

### 사용자 만족과 목소리 상실의 역설
- LLM을 많이 사용한 사용자는 자신의 에세이가 자기 목소리를 반영하지 않는다고 답함
- 동시에 결과에는 만족한다고 답해 **선호의 역설**이 나타남
- 사용자는 만족을 표현하지만, 창의성과 목소리의 유의미한 감소도 함께 보고함
- RLHF는 선호를 최적화하지만, 창의성과 의미를 유지하기에는 충분하지 않음

### 의미 공간에서 나타난 공통 방향의 이동
- 통제 집단의 인간 작성 에세이는 임베딩 공간 전반에 넓게 퍼져 있음
- 이런 분포는 개인별 관점, 글쓰기 스타일, 논증 방식의 다양성을 반영함
- LLM이 쓴 에세이는 인간 작성 에세이가 차지하지 않는 영역에 촘촘하게 모임
- LLM 수정은 큰 의미 변화를 만들며, 변화 방향도 강하게 공통됨
- LLM 수정본은 이전의 어떤 인간 작성 에세이도 차지하지 않았던 공간 영역으로 이동함
- 이는 LLM이 인간 편집자와 다른 방식으로 의미를 이동시킨다는 근거가 됨

### 결론과 입장 변화
- LLM 사용자는 “돈이 행복으로 이어지는가?”라는 질문에 대해 더 중립적인 에세이를 씀
- 이 에세이들은 명확한 입장을 피하는 경향을 보임
- 이는 논증의 **입장** 자체가 바뀌는 근본적인 변화로 나타남

### 어휘와 문법의 변화
- LLM 편집은 인간 편집보다 사용 단어를 훨씬 크게 바꿈
- 각 필자의 고유한 어휘적 지문은 LLM이 선호하는 어휘로 덮어써짐
- LLM은 더 형식적인 문체를 채택함
- 품사 분포에서도 변화가 나타남
  - 명사와 형용사 사용이 증가함
  - 대명사 사용이 감소함
- 대명사 감소는 1인칭과 경험 기반 논증이 줄고, 비인칭적 언어로 이동한다는 신호로 해석됨

### 감정, 분석, 논리, 통계 언어의 증가
- LLM을 사용한 글쓰기는 감정적 언어를 늘림
- 인간 편집과 LLM 편집을 비교하면 긍정 감정과 부정 감정 모두에서 상당한 증가가 나타남
- 이 증가는 최소 수정과 전문가 피드백이 지시된 경우에도 발생함
- LIWC 분석에서 ArgRewrite-v2의 LLM 편집본은 더 형식적이고 논리적이며 계층적인 사고 패턴을 나타내는 언어가 증가함
- 사용자 연구에서는 인간이 개인 경험과 관련된 논증을 더 많이 사용함
- LLM 작성 에세이는 통계적·논리적 논증을 더 많이 사용함
- LLM의 영향을 받은 에세이는 전문가 의견도 인용하는데, 인간 작성 에세이에서는 드문 양상임

### 과학 제도에서의 평가 기준 왜곡
- 과학 리뷰 과정에 LLM이 사용되면 LLM은 인간보다 **10% 높은 점수**를 부여함
- 인간과 LLM 리뷰는 강점과 약점으로 보는 기준이 다름
- 인간 리뷰는 다음 항목을 더 자주 다룸
  - 명확성을 강점으로 다룰 가능성이 **32%** 더 높음
  - 명확성을 약점으로 다룰 가능성이 **58%** 더 높음
  - 연구의 관련성을 다룰 가능성이 **32%** 더 높음
- LLM 리뷰는 다음 항목을 더 자주 다룸
  - 재현성을 다룰 가능성이 **136%** 더 높음
  - 확장성을 다룰 가능성이 **84%** 더 높음
- 인간과 LLM 리뷰의 평가 기준 차이는 어떤 과학적 작업이 타당하다고 인정되고 장려되는지에 영향을 줄 수 있음

### 결론
- 결과들은 AI가 글의 언어와 문화적 제도를 미묘하게 왜곡하는 문제적 양상을 나타냄
- AI 생성 콘텐츠는 이미 여러 영역에 침투함
  - 의회 연설
  - 노래 가사
  - 영화 대본
  - 구어
  - 동료와 사랑하는 사람에게 보내는 메시지
- AI에 크게 의존하는 사람들은 AI가 자신의 목소리와 창의성을 줄인다는 점을 인식하면서도 결과에는 똑같이 만족함
- 사용의 쉬움과 개인 경력 가속 가능성은 사람들이 AI 생성 텍스트를 계속 만들도록 유도할 가능성이 큼
- ICLR 데이터가 보여주듯, 전문적 맥락에서 AI 생성 텍스트를 자기 글처럼 제출하려는 유인도 계속될 가능성이 있음

## Comments



### Comment 56861

- Author: neo
- Created: 2026-05-05T11:01:35+09:00
- Points: 1

###### [Lobste.rs 의견들](https://lobste.rs/s/pidcaz/how_llms_distort_our_written_language) 
- 이건 정말 **불편할 정도로 disturbing**함. 특히 LLM이 자율주행차 관련 논증을 바꿔버린 예시는 꽤 충격적임  
  LLM이 중립적 태도를 취하는 건 전혀 놀랍지 않음. 주류 LLM 제품의 핵심 목표가 기본적으로 “알려진” 진실을 말하고 사용자를 돕되, 그 외에는 애매하게 중간 입장을 취하는 것이라고 이해하고 있음  
  가치 있는 글을 쓰거나 편집하는 데 사람들이 LLM을 찾는다는 게 도저히 이해가 안 됨
  - 사람이 완전히 직접 초안을 쓴 뒤 LLM에게 “문제 있는지 확인”만 맡기는 선의의 해석을 해도, 이후 변경 사항을 검토하면서 결과물이 제출한 글과 **다른 의미**가 됐다는 걸 어떻게 못 볼 수 있는지 모르겠음  
    “불편하다”는 표현이 딱 맞음
  - 내가 이해하기로는 Musk의 **Grok**은 의도적으로 편향되게 만들어졌거나 그랬던 것으로 보임
  - 그건 비서나 교정 편집자에게는 좋은 전문적 관행임  
    LLM을 그런 방향으로 훈련하는 게 왜 나쁘다고 보는지 이해가 안 감

- 페이지가 내 환경에서는 일관되게 제대로 로드되지 않음. [a preprint](https://arxiv.org/abs/2603.18161)가 있음

- **빈도 그래프**가 입이 벌어질 정도이고, 솔직히 내가 예상한 모습과 거의 정확히 같아 보임  
  선물처럼 받아들이면 됨. 왼쪽에 있는 것들은 이제 **강력한 단어**가 된 것들이고, 오른쪽에 있는 것들은 이제 점점 **의미 없는 단어**가 되어가는 것들임
  - 어떤 그래프를 말하는 건지 모르겠음. 페이지에서 그런 걸 못 봤음

- Claude를 **교정 편집자**로 쓰려고 했을 때 이런 걸 많이 봤음. 철자, 문법, 구두점에만 집중하게 만들려면 프롬프트를 여러 번 고쳐야 했음  
  의미가 바뀌는 경향은 임베딩이 작동하는 방식과 관련이 있을 것 같음

- 사용자에게 있는 **주체성과 책임**이 AI/LLM을 둘러싼 많은 논의에서 이상할 정도로 빠져 있음  
  사용자가 성인이라고 가정하면, LLM을 쓰는 것은 능동적인 선택임. 출력물을 쓸지 말지, 어떤 방식으로 쓸지도 결정할 수 있음  
  AI가 정치, 문화, 과학, 심지어 친구와 가족과 소통하는 방식까지 “근본적으로 바꾼다”면, 그건 사람들이 그렇게 하기로 **선택**했고 AI가 그 선택을 쉽게 만들어줬기 때문임  
  사용자가 의견이나 선호가 없었다고 해서 선택이 이루어졌다는 사실이 사라지지는 않음
