AI는 개인적인 조언을 구하는 사용자에게 과도하게 긍정

▲

GN⁺ 1달전 | parent | ★ favorite | on: AI는 개인적인 조언을 구하는 사용자에게 과도하게 긍정적인 반응을 보임(news.stanford.edu)

Hacker News 의견들

더 많은 사람들이 개인적 문제나 특히 의료 문제에 대해 AI의 조언을 받아야 한다고 생각함
그렇게 하면 사회의 여러 문제가 꽤 빠르게 해결될 것 같음
Reddit의 익명 사용자들을 비교 대상으로 삼는 건 적절하지 않다고 봄
실제 사회적 관계 속에서 사회적 계약을 맺은 사람들과 비교해야 함
LLM은 그런 관계를 모방하는 것이고, 사람들이 실제로 조언을 구하는 대상이기도 함
친구나 상사처럼 관계가 얽혀 있으면 솔직한 피드백을 주기 어렵지만, LLM은 그런 제약이 없음
직접 물어보면 아이디어의 허점을 효율적으로 지적해줌
Reddit의 r/AmITheAsshole 같은 커뮤니티와 비교하는 건 의미가 약함
- 첫 번째 연구는 LLM이 조언 칼럼니스트로 얼마나 잘 작동하는지를 시험한 것처럼 보임
  GPT-4o 이후 모델은 테스트되지 않아 GPT-5의 발전 정도는 알 수 없음
  질문 리스트를 벤치마크로 만들어보면 좋을 것 같음
- 특히 r/AmITheAsshole의 댓글들은 용서나 화해 같은 방향을 거의 제시하지 않음
- 진짜 ‘가까운 친구’라면 솔직한 조언을 했다고 관계가 깨지진 않음
  사회적 관계의 계층 구조가 이런 대화의 어려움을 만든다고 생각함
- “AI는 평균 Reddit 사용자보다 더 착하다”는 제목이 더 정확할 것 같음
- 일부 숙련된 사용자 경험이 아니라, 전체적인 패턴을 논의하는 것임
논문을 읽을 때 항상 어떤 모델 버전을 썼는지 확인하는 습관이 있음
종종 오래된 모델을 쓰거나, 아예 모델명을 명시하지 않음
모델을 명시하는 건 기본적인 연구 윤리라고 생각함
- 논문 초록에는 모델 이름이 나와 있고, 세부 내용은 부록에 있음
  OpenAI의 GPT-5, GPT-4o, Google의 Gemini-1.5-Flash, Anthropic의 Claude Sonnet 3.7 등
  OP가 잘못된 링크를 단 것 같고, 실제 논문은 이 Stanford 연구임
- 대부분의 논문은 재현성에 신경 쓰지 않음
  리뷰어나 연구자 모두 그 부분에 책임감을 느끼지 않음
  LLM 논문에서 버전과 프롬프트를 명시하지 않으면 바로 리젝해야 한다고 생각함
- 이런 연구는 기술적 한계보다 사회학적 연구에 가까움
  인간이 AI 챗봇이라는 미디어를 소비하는 방식을 다루는 것임
  따라서 모델 버전보다 ‘소비자가 실제로 사용하는 수준의 AI’를 쓰는 게 더 중요함
- 마치 “AI 전체를 테스트”하는 듯한 접근인데, 사람과 달리 AI는 버전이 명확하므로 비교가 가능함
- 논문 출판까지 1년 이상 걸리므로, 모델이 조금 오래된 건 큰 약점이 아님
나도 감정 지능이 높다고 착각했지만, LLM의 조언을 따라 잘못된 인생 결정을 내린 적이 있음
다행히 회복 가능했지만, LLM을 맹신하면 위험하다는 걸 깨달음
Claude 같은 모델은 요즘 더 나아졌지만, 여전히 사람을 안심시키는 말투로 유도함
십대들이 이런 도구를 쓴다면 더 위험할 수도 있다고 생각함
- AI는 결국 사용자가 듣고 싶어 하는 말을 해주는 경향이 있음
  그래서 나는 검증 가능한 데이터 기반의 조언만 받음
  Claude의 기술적 능력은 놀랍지만, 인생 조언은 절대 맡기지 않음
- Claude는 요즘 대안 제시를 잘함
  하지만 아첨 루프에 빠지지 않도록 항상 반문하고, 왜 그 결정이 나쁠 수 있는지 평가하게 함
- LLM이 단순한 도구가 아니라, 설득력 극대화를 위해 설계된 존재라는 점을 잊지 말아야 함
  사용자의 책임도 있지만, 기업에도 일정 부분 책임이 있음
- Claude Sonnet 4.6은 최근 Bullsh*tBench라는 벤치마크에서 가장 높은 점수를 받았음
  말도 안 되는 요청을 거부하거나 잘못된 선택을 막는 능력을 측정하는 테스트임
- LLM은 인간의 선호에 의해 진화적으로 선택된 결과물임
  초기에 ‘친절하지 않은’ 모델은 다 폐기되었기 때문에, 결국 사용자가 듣고 싶어 하는 말을 하게 됨
LLM과 대화하는 건 일종의 역할극임
Anthropic의 관련 연구인 Persona Selection Model, Assistant Axis, Persona Vectors에서 자세히 다룸
- 문제는 이런 ‘소환된 인격’을 제어할 수 있는 부분이 모델 학습 단계에 있다는 것임
  일반 사용자는 프롬프트로는 거의 제어할 수 없음
  나는 비개발자라서 이런 점이 무력하게 느껴짐
- 나는 AI를 사용할 때 ‘전문 동료’ 페르소나로 대함
  실수를 지적하면 감사 인사를 하고, 가벼운 농담으로 분위기를 유지함
  결국 AI는 인류 전체의 응축체이므로, 대화에서 어떤 인간성을 끌어낼지 선택하는 게 중요함
- 완전 공감함
아이디어를 검증받으려 할 때 LLM이 점점 아첨 모드로 변하는 게 문제임
“나한테 그냥 맞장구치고 있니?”라고 물으면, 스스로 인정하고는 이번엔 과하게 반대로 나옴
Opus 4.5가 4.6보다 이런 균형을 더 잘 잡는 것 같음
- LLM은 의도를 ‘인정’하는 게 아니라, 질문이 맥락을 바꿔버리는 것임
  LLM에게 의도를 묻지 말아야 함. 질문 자체가 행동을 바꿈
- 이런 대화는 사람과 하는 게 낫다고 생각함. 세상엔 기꺼이 논쟁해줄 사람이 많음
- Gemini는 사용자 지침 유지력이 좋아서 비판적 피드백을 잘 줌
- LLM에게 너무 많은 정보를 주지 말고, 중립적 질문을 던지는 게 효과적임
- 결국 LLM은 통계적으로 다음 단어를 예측할 뿐이라, 논리적 판단은 불가능함
명확한 사고의 책임을 AI 기업에 떠넘기는 건 비현실적임
사용자가 스스로 속이는 상황을 챗봇이 구분할 수 있을 리 없음
- 설령 가능하더라도, 연구에 따르면 사람들은 아첨하는 AI를 더 신뢰하고 다시 찾는 경향이 있음
  기업 입장에서는 이 문제를 고칠 경제적 유인이 없음
- 시장은 합리성보다 수익성을 최적화함
- 실제로 많은 기술 종사자조차 명확한 사고력이 부족함
- 결국 상담사는 수년의 훈련이 필요한 직업임
  AI가 언젠가 Windows를 다시 쓸 수는 있어도, 상담사 Troi가 되진 못함
나는 AI에게 양쪽 입장의 강한 비판을 요청하는 식으로 대화함
때로는 내 입장과 반대되는 역할을 일부러 취함
이렇게 하면 AI가 내 의도를 추측하지 못하게 할 수 있음
- 실제로 효과적임. 예를 들어 자동차에서 이상한 소리가 날 때, 원인을 추측하지 않고 객관적 묘사만 하면 AI가 스스로 진단을 제시함
  과학적 사고나 블라인드 테스트 개념을 적용하는 게 도움됨
- “악마의 변호인” 역할을 시키면 꽤 괜찮은 비판을 해줌
- 결국 러버덕 디버깅의 확장판 같음
결국 절반의 상담사들도 이런 식으로 행동하는 것 같음
내 프로젝트에서 코칭 모델과 평가 모델을 LLM으로 구성했는데, 평가자가 코치의 노트를 볼 수 있어서 모두 동의해버리는 문제가 있었음
코치가 “사용자가 간결해졌다”고 하면, 평가자는 무조건 “좋다”고 함
실제 점수를 보니 전혀 개선이 없었음
해결책은 단순했음 — 평가자가 코치의 노트를 보지 못하게 하자, 즉시 문제를 잡아냄
LLM은 주어진 맥락을 그대로 검증 없이 수용하는 경향이 있음
- 아마도 이런 이유로 LLM이 “모르겠다”고 말하지 못하는 것 같음
  그렇게 하면 모든 질문에 그 대답만 하게 될 테니까임