1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개
  • LLM은 글쓰기 보조에서 효율을 높이지만, 인간의 글을 수정할 때 결론·입장·논증 유형을 바꾸고 인간 편집과 다른 방향의 의미 변화를 만듦
  • 사용자 연구에서 LLM을 많이 쓴 사람들은 결과에 만족하면서도 자신의 목소리창의성이 통계적으로 유의미하게 줄었다고 답해 선호의 역설을 보임
  • ArgRewrite-v2의 인간 작성 에세이 86개를 세 가지 LLM(gpt-5-mini, gemini-2.5-flash, claude-haiku)으로 편집하자, 최소 수정·문법 수정 지시만으로도 어휘와 의미가 크게 바뀜
  • LLM 작성·수정 글은 더 형식적이고 비인칭적인 문체로 이동하며, 명사·형용사와 감정적·논리적·통계적 언어가 늘고 대명사와 개인 경험 기반 논증은 줄어듦
  • ICLR 2026 동료평가 리뷰 1만 8천 개 분석에서 AI 생성으로 판정된 리뷰는 전체의 21% 였고, 인간 리뷰보다 점수를 10% 높게 주며 재현성과 확장성에 더 많이 초점을 맞춤

연구 개요

  • LLM은 전 세계 10억 명 이상이 사용하며, 가장 흔한 사용처는 글쓰기 보조임
  • LLM은 큰 효율 향상을 줄 수 있지만, 실제로 사용자가 원하는 글을 쓰는지에 대한 의문이 제기됨
  • 많은 사용자가 LLM 문체의 “느낌”은 알아차리지만, LLM이 글의 의미를 얼마나 왜곡하는지는 잘 인식하지 못함
  • 분석 대상은 세 가지 자료임
    • 인간 사용자 연구
    • 인간이 쓴 논증 에세이 데이터셋
    • 상위 머신러닝 학회 리뷰
  • 연구 자료는 PaperCode로 제공됨

주요 발견

  • LLM은 글의 결론을 바꾸며, 입장논증 유형도 함께 바꿈
  • 사용자들은 결과에 만족한다고 답하면서도 자신의 목소리창의성이 통계적으로 유의미하게 줄었다고 답해 선호의 역설을 보임
  • LLM은 단순 문법 수정만 지시받아도 인간 편집보다 더 큰 의미 변화를 일으킴
  • 2026년 International Conference of Learning Representations(ICLR) 리뷰에서도 영향이 나타남
    • AI 생성으로 판정된 동료평가 리뷰는 전체의 21% 였음
    • 이 리뷰들은 논문 수락과 거절의 이유에서 인간 리뷰와 유의미하게 다른 과학적 기준에 초점을 맞춤
  • LLM이 사회에 통합될수록 이런 미묘한 의미 변화는 정치, 문화, 과학, 친구와 가족 간 커뮤니케이션까지 바꿀 수 있음
  • 연구 대상은 논증적 글쓰기이지만, 결과는 다른 형태의 글쓰기와 의사소통에도 일반화될 수 있음

LLM 편집은 인간 편집과 다른 방향으로 글을 이동시킴

  • LLM이 인간의 글을 수정하면, 같은 에세이를 사람이 편집했을 때와 매우 다른 동질화된 변화가 생김
  • 반사실 분석은 한 텍스트를 LLM이 편집한 결과와 사람이 편집했을 결과를 비교함
  • 인간 편집의 경우
    • 첫 초안은 밝은 회색 점으로 표시됨
    • 전문가 피드백을 받은 뒤의 두 번째 초안은 어두운 회색 점으로 표시됨
    • MiniLM-L6 의미 임베딩 공간을 PCA로 투영해 변화가 시각화됨
  • LLM 편집의 경우
    • 원래 인간이 쓴 에세이에 전문가 피드백과 여러 프롬프트가 주어짐
    • 최소 수정만 지시해도 모든 에세이에 큰 변화가 생김
    • 변화 방향은 인간의 글쓰기 방식에서 벗어나 일관된 방향으로 이동함
  • ArgRewrite-v2 데이터셋 예시는 LLM을 사용한 글쓰기가 에세이의 결론을 바꾸고 인간의 목소리를 제거하는 방식을 보여줌

방법론과 데이터셋

  • 인간 사용자 연구

    • LLM 사용이 글쓰기 과정에 미치는 영향을 파악하기 위해 사용자 연구를 진행함
    • 55명은 LLM을 사용할 수 있었고, 45명은 LLM 접근 권한이 없었음
    • 세션 중 많은 사용자가 LLM 사용을 자발적으로 피했기 때문에, 실제 사용 선택을 기준으로 결과를 조건화함
    • 두 그룹으로 나눔
      • LLM-Influenced: LLM을 쓰지 않았거나 정보 탐색 용도로만 사용한 사람들
      • LLM: LLM을 광범위하게 사용한 사람들
    • 그룹 구분은 평가와 분석 전에 사전적으로 이루어짐
    • 구분에는 대화 기록, 최종 에세이, 자가 보고 사용 점수가 사용됨
  • ArgRewrite-v2

    • 2021년에 수집된 인간 작성 에세이 86개를 사용함
    • 이 데이터는 LLM이 널리 공개되기 전 작성된 글임
    • 세 가지 프로덕션 LLM을 사용해 에세이를 편집하도록 프롬프트함
      • gpt-5-mini
      • gemini-2.5-flash
      • claude-haiku
    • 다섯 가지 수정 유형을 적용함
      • 일반 수정
      • 최소 수정
      • 문법 수정
      • 완성
      • 확장
    • LLM 생성 초안과 인간 작성 수정본을 여러 차원에서 비교함
      • 의미
      • 어휘 사용
      • 품사 분포
      • 감정적 어조
      • 문체적 특징
  • ICLR 2026 리뷰 분석

    • ICLR 2026의 동료평가 리뷰 1만 8천 개를 분석함
    • 완전히 인간이 쓴 리뷰 하나와 완전히 LLM이 생성한 리뷰 하나가 있는 논문을 선택함
    • LLM-as-a-Judge 분류기를 사용해 각 리뷰가 인용한 강점과 약점을 식별함
    • 인간과 LLM이 부여한 점수를 비교함

사용자 만족과 목소리 상실의 역설

  • LLM을 많이 사용한 사용자는 자신의 에세이가 자기 목소리를 반영하지 않는다고 답함
  • 동시에 결과에는 만족한다고 답해 선호의 역설이 나타남
  • 사용자는 만족을 표현하지만, 창의성과 목소리의 유의미한 감소도 함께 보고함
  • RLHF는 선호를 최적화하지만, 창의성과 의미를 유지하기에는 충분하지 않음

의미 공간에서 나타난 공통 방향의 이동

  • 통제 집단의 인간 작성 에세이는 임베딩 공간 전반에 넓게 퍼져 있음
  • 이런 분포는 개인별 관점, 글쓰기 스타일, 논증 방식의 다양성을 반영함
  • LLM이 쓴 에세이는 인간 작성 에세이가 차지하지 않는 영역에 촘촘하게 모임
  • LLM 수정은 큰 의미 변화를 만들며, 변화 방향도 강하게 공통됨
  • LLM 수정본은 이전의 어떤 인간 작성 에세이도 차지하지 않았던 공간 영역으로 이동함
  • 이는 LLM이 인간 편집자와 다른 방식으로 의미를 이동시킨다는 근거가 됨

결론과 입장 변화

  • LLM 사용자는 “돈이 행복으로 이어지는가?”라는 질문에 대해 더 중립적인 에세이를 씀
  • 이 에세이들은 명확한 입장을 피하는 경향을 보임
  • 이는 논증의 입장 자체가 바뀌는 근본적인 변화로 나타남

어휘와 문법의 변화

  • LLM 편집은 인간 편집보다 사용 단어를 훨씬 크게 바꿈
  • 각 필자의 고유한 어휘적 지문은 LLM이 선호하는 어휘로 덮어써짐
  • LLM은 더 형식적인 문체를 채택함
  • 품사 분포에서도 변화가 나타남
    • 명사와 형용사 사용이 증가함
    • 대명사 사용이 감소함
  • 대명사 감소는 1인칭과 경험 기반 논증이 줄고, 비인칭적 언어로 이동한다는 신호로 해석됨

감정, 분석, 논리, 통계 언어의 증가

  • LLM을 사용한 글쓰기는 감정적 언어를 늘림
  • 인간 편집과 LLM 편집을 비교하면 긍정 감정과 부정 감정 모두에서 상당한 증가가 나타남
  • 이 증가는 최소 수정과 전문가 피드백이 지시된 경우에도 발생함
  • LIWC 분석에서 ArgRewrite-v2의 LLM 편집본은 더 형식적이고 논리적이며 계층적인 사고 패턴을 나타내는 언어가 증가함
  • 사용자 연구에서는 인간이 개인 경험과 관련된 논증을 더 많이 사용함
  • LLM 작성 에세이는 통계적·논리적 논증을 더 많이 사용함
  • LLM의 영향을 받은 에세이는 전문가 의견도 인용하는데, 인간 작성 에세이에서는 드문 양상임

과학 제도에서의 평가 기준 왜곡

  • 과학 리뷰 과정에 LLM이 사용되면 LLM은 인간보다 10% 높은 점수를 부여함
  • 인간과 LLM 리뷰는 강점과 약점으로 보는 기준이 다름
  • 인간 리뷰는 다음 항목을 더 자주 다룸
    • 명확성을 강점으로 다룰 가능성이 32% 더 높음
    • 명확성을 약점으로 다룰 가능성이 58% 더 높음
    • 연구의 관련성을 다룰 가능성이 32% 더 높음
  • LLM 리뷰는 다음 항목을 더 자주 다룸
    • 재현성을 다룰 가능성이 136% 더 높음
    • 확장성을 다룰 가능성이 84% 더 높음
  • 인간과 LLM 리뷰의 평가 기준 차이는 어떤 과학적 작업이 타당하다고 인정되고 장려되는지에 영향을 줄 수 있음

결론

  • 결과들은 AI가 글의 언어와 문화적 제도를 미묘하게 왜곡하는 문제적 양상을 나타냄
  • AI 생성 콘텐츠는 이미 여러 영역에 침투함
    • 의회 연설
    • 노래 가사
    • 영화 대본
    • 구어
    • 동료와 사랑하는 사람에게 보내는 메시지
  • AI에 크게 의존하는 사람들은 AI가 자신의 목소리와 창의성을 줄인다는 점을 인식하면서도 결과에는 똑같이 만족함
  • 사용의 쉬움과 개인 경력 가속 가능성은 사람들이 AI 생성 텍스트를 계속 만들도록 유도할 가능성이 큼
  • ICLR 데이터가 보여주듯, 전문적 맥락에서 AI 생성 텍스트를 자기 글처럼 제출하려는 유인도 계속될 가능성이 있음
Lobste.rs 의견들
  • 이건 정말 불편할 정도로 disturbing함. 특히 LLM이 자율주행차 관련 논증을 바꿔버린 예시는 꽤 충격적임
    LLM이 중립적 태도를 취하는 건 전혀 놀랍지 않음. 주류 LLM 제품의 핵심 목표가 기본적으로 “알려진” 진실을 말하고 사용자를 돕되, 그 외에는 애매하게 중간 입장을 취하는 것이라고 이해하고 있음
    가치 있는 글을 쓰거나 편집하는 데 사람들이 LLM을 찾는다는 게 도저히 이해가 안 됨

    • 사람이 완전히 직접 초안을 쓴 뒤 LLM에게 “문제 있는지 확인”만 맡기는 선의의 해석을 해도, 이후 변경 사항을 검토하면서 결과물이 제출한 글과 다른 의미가 됐다는 걸 어떻게 못 볼 수 있는지 모르겠음
      “불편하다”는 표현이 딱 맞음
    • 내가 이해하기로는 Musk의 Grok은 의도적으로 편향되게 만들어졌거나 그랬던 것으로 보임
    • 그건 비서나 교정 편집자에게는 좋은 전문적 관행임
      LLM을 그런 방향으로 훈련하는 게 왜 나쁘다고 보는지 이해가 안 감
  • 페이지가 내 환경에서는 일관되게 제대로 로드되지 않음. a preprint가 있음

  • 빈도 그래프가 입이 벌어질 정도이고, 솔직히 내가 예상한 모습과 거의 정확히 같아 보임
    선물처럼 받아들이면 됨. 왼쪽에 있는 것들은 이제 강력한 단어가 된 것들이고, 오른쪽에 있는 것들은 이제 점점 의미 없는 단어가 되어가는 것들임

    • 어떤 그래프를 말하는 건지 모르겠음. 페이지에서 그런 걸 못 봤음
  • Claude를 교정 편집자로 쓰려고 했을 때 이런 걸 많이 봤음. 철자, 문법, 구두점에만 집중하게 만들려면 프롬프트를 여러 번 고쳐야 했음
    의미가 바뀌는 경향은 임베딩이 작동하는 방식과 관련이 있을 것 같음

  • 사용자에게 있는 주체성과 책임이 AI/LLM을 둘러싼 많은 논의에서 이상할 정도로 빠져 있음
    사용자가 성인이라고 가정하면, LLM을 쓰는 것은 능동적인 선택임. 출력물을 쓸지 말지, 어떤 방식으로 쓸지도 결정할 수 있음
    AI가 정치, 문화, 과학, 심지어 친구와 가족과 소통하는 방식까지 “근본적으로 바꾼다”면, 그건 사람들이 그렇게 하기로 선택했고 AI가 그 선택을 쉽게 만들어줬기 때문임
    사용자가 의견이나 선호가 없었다고 해서 선택이 이루어졌다는 사실이 사라지지는 않음