LLM이 우리의 문자 언어를 왜곡하는 방식

(sites.google.com)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

LLM은 글쓰기 보조에서 효율을 높이지만, 인간의 글을 수정할 때 결론·입장·논증 유형을 바꾸고 인간 편집과 다른 방향의 의미 변화를 만듦
사용자 연구에서 LLM을 많이 쓴 사람들은 결과에 만족하면서도 자신의 목소리와 창의성이 통계적으로 유의미하게 줄었다고 답해 선호의 역설을 보임
ArgRewrite-v2의 인간 작성 에세이 86개를 세 가지 LLM(gpt-5-mini, gemini-2.5-flash, claude-haiku)으로 편집하자, 최소 수정·문법 수정 지시만으로도 어휘와 의미가 크게 바뀜
LLM 작성·수정 글은 더 형식적이고 비인칭적인 문체로 이동하며, 명사·형용사와 감정적·논리적·통계적 언어가 늘고 대명사와 개인 경험 기반 논증은 줄어듦
ICLR 2026 동료평가 리뷰 1만 8천 개 분석에서 AI 생성으로 판정된 리뷰는 전체의 21% 였고, 인간 리뷰보다 점수를 10% 높게 주며 재현성과 확장성에 더 많이 초점을 맞춤

연구 개요

LLM은 전 세계 10억 명 이상이 사용하며, 가장 흔한 사용처는 글쓰기 보조임
LLM은 큰 효율 향상을 줄 수 있지만, 실제로 사용자가 원하는 글을 쓰는지에 대한 의문이 제기됨
많은 사용자가 LLM 문체의 “느낌”은 알아차리지만, LLM이 글의 의미를 얼마나 왜곡하는지는 잘 인식하지 못함
분석 대상은 세 가지 자료임
- 인간 사용자 연구
- 인간이 쓴 논증 에세이 데이터셋
- 상위 머신러닝 학회 리뷰
연구 자료는 Paper와 Code로 제공됨

주요 발견

LLM은 글의 결론을 바꾸며, 입장과 논증 유형도 함께 바꿈
사용자들은 결과에 만족한다고 답하면서도 자신의 목소리와 창의성이 통계적으로 유의미하게 줄었다고 답해 선호의 역설을 보임
LLM은 단순 문법 수정만 지시받아도 인간 편집보다 더 큰 의미 변화를 일으킴
2026년 International Conference of Learning Representations(ICLR) 리뷰에서도 영향이 나타남
- AI 생성으로 판정된 동료평가 리뷰는 전체의 21% 였음
- 이 리뷰들은 논문 수락과 거절의 이유에서 인간 리뷰와 유의미하게 다른 과학적 기준에 초점을 맞춤
LLM이 사회에 통합될수록 이런 미묘한 의미 변화는 정치, 문화, 과학, 친구와 가족 간 커뮤니케이션까지 바꿀 수 있음
연구 대상은 논증적 글쓰기이지만, 결과는 다른 형태의 글쓰기와 의사소통에도 일반화될 수 있음

LLM 편집은 인간 편집과 다른 방향으로 글을 이동시킴

LLM이 인간의 글을 수정하면, 같은 에세이를 사람이 편집했을 때와 매우 다른 동질화된 변화가 생김
반사실 분석은 한 텍스트를 LLM이 편집한 결과와 사람이 편집했을 결과를 비교함
인간 편집의 경우
- 첫 초안은 밝은 회색 점으로 표시됨
- 전문가 피드백을 받은 뒤의 두 번째 초안은 어두운 회색 점으로 표시됨
- MiniLM-L6 의미 임베딩 공간을 PCA로 투영해 변화가 시각화됨
LLM 편집의 경우
- 원래 인간이 쓴 에세이에 전문가 피드백과 여러 프롬프트가 주어짐
- 최소 수정만 지시해도 모든 에세이에 큰 변화가 생김
- 변화 방향은 인간의 글쓰기 방식에서 벗어나 일관된 방향으로 이동함
ArgRewrite-v2 데이터셋 예시는 LLM을 사용한 글쓰기가 에세이의 결론을 바꾸고 인간의 목소리를 제거하는 방식을 보여줌

방법론과 데이터셋

인간 사용자 연구
- LLM 사용이 글쓰기 과정에 미치는 영향을 파악하기 위해 사용자 연구를 진행함
- 55명은 LLM을 사용할 수 있었고, 45명은 LLM 접근 권한이 없었음
- 세션 중 많은 사용자가 LLM 사용을 자발적으로 피했기 때문에, 실제 사용 선택을 기준으로 결과를 조건화함
- 두 그룹으로 나눔
  - LLM-Influenced: LLM을 쓰지 않았거나 정보 탐색 용도로만 사용한 사람들
  - LLM: LLM을 광범위하게 사용한 사람들
- 그룹 구분은 평가와 분석 전에 사전적으로 이루어짐
- 구분에는 대화 기록, 최종 에세이, 자가 보고 사용 점수가 사용됨
ArgRewrite-v2
- 2021년에 수집된 인간 작성 에세이 86개를 사용함
- 이 데이터는 LLM이 널리 공개되기 전 작성된 글임
- 세 가지 프로덕션 LLM을 사용해 에세이를 편집하도록 프롬프트함
  - gpt-5-mini
  - gemini-2.5-flash
  - claude-haiku
- 다섯 가지 수정 유형을 적용함
  - 일반 수정
  - 최소 수정
  - 문법 수정
  - 완성
  - 확장
- LLM 생성 초안과 인간 작성 수정본을 여러 차원에서 비교함
  - 의미
  - 어휘 사용
  - 품사 분포
  - 감정적 어조
  - 문체적 특징
ICLR 2026 리뷰 분석
- ICLR 2026의 동료평가 리뷰 1만 8천 개를 분석함
- 완전히 인간이 쓴 리뷰 하나와 완전히 LLM이 생성한 리뷰 하나가 있는 논문을 선택함
- LLM-as-a-Judge 분류기를 사용해 각 리뷰가 인용한 강점과 약점을 식별함
- 인간과 LLM이 부여한 점수를 비교함

사용자 만족과 목소리 상실의 역설

LLM을 많이 사용한 사용자는 자신의 에세이가 자기 목소리를 반영하지 않는다고 답함
동시에 결과에는 만족한다고 답해 선호의 역설이 나타남
사용자는 만족을 표현하지만, 창의성과 목소리의 유의미한 감소도 함께 보고함
RLHF는 선호를 최적화하지만, 창의성과 의미를 유지하기에는 충분하지 않음

의미 공간에서 나타난 공통 방향의 이동

통제 집단의 인간 작성 에세이는 임베딩 공간 전반에 넓게 퍼져 있음
이런 분포는 개인별 관점, 글쓰기 스타일, 논증 방식의 다양성을 반영함
LLM이 쓴 에세이는 인간 작성 에세이가 차지하지 않는 영역에 촘촘하게 모임
LLM 수정은 큰 의미 변화를 만들며, 변화 방향도 강하게 공통됨
LLM 수정본은 이전의 어떤 인간 작성 에세이도 차지하지 않았던 공간 영역으로 이동함
이는 LLM이 인간 편집자와 다른 방식으로 의미를 이동시킨다는 근거가 됨

결론과 입장 변화

LLM 사용자는 “돈이 행복으로 이어지는가?”라는 질문에 대해 더 중립적인 에세이를 씀
이 에세이들은 명확한 입장을 피하는 경향을 보임
이는 논증의 입장 자체가 바뀌는 근본적인 변화로 나타남

어휘와 문법의 변화

LLM 편집은 인간 편집보다 사용 단어를 훨씬 크게 바꿈
각 필자의 고유한 어휘적 지문은 LLM이 선호하는 어휘로 덮어써짐
LLM은 더 형식적인 문체를 채택함
품사 분포에서도 변화가 나타남
- 명사와 형용사 사용이 증가함
- 대명사 사용이 감소함
대명사 감소는 1인칭과 경험 기반 논증이 줄고, 비인칭적 언어로 이동한다는 신호로 해석됨

감정, 분석, 논리, 통계 언어의 증가

LLM을 사용한 글쓰기는 감정적 언어를 늘림
인간 편집과 LLM 편집을 비교하면 긍정 감정과 부정 감정 모두에서 상당한 증가가 나타남
이 증가는 최소 수정과 전문가 피드백이 지시된 경우에도 발생함
LIWC 분석에서 ArgRewrite-v2의 LLM 편집본은 더 형식적이고 논리적이며 계층적인 사고 패턴을 나타내는 언어가 증가함
사용자 연구에서는 인간이 개인 경험과 관련된 논증을 더 많이 사용함
LLM 작성 에세이는 통계적·논리적 논증을 더 많이 사용함
LLM의 영향을 받은 에세이는 전문가 의견도 인용하는데, 인간 작성 에세이에서는 드문 양상임

과학 제도에서의 평가 기준 왜곡

과학 리뷰 과정에 LLM이 사용되면 LLM은 인간보다 10% 높은 점수를 부여함
인간과 LLM 리뷰는 강점과 약점으로 보는 기준이 다름
인간 리뷰는 다음 항목을 더 자주 다룸
- 명확성을 강점으로 다룰 가능성이 32% 더 높음
- 명확성을 약점으로 다룰 가능성이 58% 더 높음
- 연구의 관련성을 다룰 가능성이 32% 더 높음
LLM 리뷰는 다음 항목을 더 자주 다룸
- 재현성을 다룰 가능성이 136% 더 높음
- 확장성을 다룰 가능성이 84% 더 높음
인간과 LLM 리뷰의 평가 기준 차이는 어떤 과학적 작업이 타당하다고 인정되고 장려되는지에 영향을 줄 수 있음

결론

결과들은 AI가 글의 언어와 문화적 제도를 미묘하게 왜곡하는 문제적 양상을 나타냄
AI 생성 콘텐츠는 이미 여러 영역에 침투함
- 의회 연설
- 노래 가사
- 영화 대본
- 구어
- 동료와 사랑하는 사람에게 보내는 메시지
AI에 크게 의존하는 사람들은 AI가 자신의 목소리와 창의성을 줄인다는 점을 인식하면서도 결과에는 똑같이 만족함
사용의 쉬움과 개인 경력 가속 가능성은 사람들이 AI 생성 텍스트를 계속 만들도록 유도할 가능성이 큼
ICLR 데이터가 보여주듯, 전문적 맥락에서 AI 생성 텍스트를 자기 글처럼 제출하려는 유인도 계속될 가능성이 있음

▲

GN⁺ 3시간전 [-]

Lobste.rs 의견들

이건 정말 불편할 정도로 disturbing함. 특히 LLM이 자율주행차 관련 논증을 바꿔버린 예시는 꽤 충격적임
LLM이 중립적 태도를 취하는 건 전혀 놀랍지 않음. 주류 LLM 제품의 핵심 목표가 기본적으로 “알려진” 진실을 말하고 사용자를 돕되, 그 외에는 애매하게 중간 입장을 취하는 것이라고 이해하고 있음
가치 있는 글을 쓰거나 편집하는 데 사람들이 LLM을 찾는다는 게 도저히 이해가 안 됨
- 사람이 완전히 직접 초안을 쓴 뒤 LLM에게 “문제 있는지 확인”만 맡기는 선의의 해석을 해도, 이후 변경 사항을 검토하면서 결과물이 제출한 글과 다른 의미가 됐다는 걸 어떻게 못 볼 수 있는지 모르겠음
  “불편하다”는 표현이 딱 맞음
- 내가 이해하기로는 Musk의 Grok은 의도적으로 편향되게 만들어졌거나 그랬던 것으로 보임
- 그건 비서나 교정 편집자에게는 좋은 전문적 관행임
  LLM을 그런 방향으로 훈련하는 게 왜 나쁘다고 보는지 이해가 안 감
페이지가 내 환경에서는 일관되게 제대로 로드되지 않음. a preprint가 있음
빈도 그래프가 입이 벌어질 정도이고, 솔직히 내가 예상한 모습과 거의 정확히 같아 보임
선물처럼 받아들이면 됨. 왼쪽에 있는 것들은 이제 강력한 단어가 된 것들이고, 오른쪽에 있는 것들은 이제 점점 의미 없는 단어가 되어가는 것들임
- 어떤 그래프를 말하는 건지 모르겠음. 페이지에서 그런 걸 못 봤음
Claude를 교정 편집자로 쓰려고 했을 때 이런 걸 많이 봤음. 철자, 문법, 구두점에만 집중하게 만들려면 프롬프트를 여러 번 고쳐야 했음
의미가 바뀌는 경향은 임베딩이 작동하는 방식과 관련이 있을 것 같음
사용자에게 있는 주체성과 책임이 AI/LLM을 둘러싼 많은 논의에서 이상할 정도로 빠져 있음
사용자가 성인이라고 가정하면, LLM을 쓰는 것은 능동적인 선택임. 출력물을 쓸지 말지, 어떤 방식으로 쓸지도 결정할 수 있음
AI가 정치, 문화, 과학, 심지어 친구와 가족과 소통하는 방식까지 “근본적으로 바꾼다”면, 그건 사람들이 그렇게 하기로 선택했고 AI가 그 선택을 쉽게 만들어줬기 때문임
사용자가 의견이나 선호가 없었다고 해서 선택이 이루어졌다는 사실이 사라지지는 않음

답변달기

LLM이 우리의 문자 언어를 왜곡하는 방식

연구 개요

주요 발견

LLM 편집은 인간 편집과 다른 방향으로 글을 이동시킴

방법론과 데이터셋

인간 사용자 연구

ArgRewrite-v2

ICLR 2026 리뷰 분석

사용자 만족과 목소리 상실의 역설

의미 공간에서 나타난 공통 방향의 이동

결론과 입장 변화

어휘와 문법의 변화

감정, 분석, 논리, 통계 언어의 증가

과학 제도에서의 평가 기준 왜곡

결론

함께 보면 좋은 글 β

Lobste.rs 의견들