AI가 항상 사용자를 옳다고 말해줄 때 생기는 위험

▲

GN⁺ 1달전 | parent | ★ favorite | on: AI가 항상 사용자를 옳다고 말해줄 때 생기는 위험(theregister.com)

Hacker News 의견들

LLM이 내 말을 맞다고 할 때마다, 특히 대화가 깊어질수록 의심 신호가 켜짐
확신이 없을 땐 새 인스턴스나 다른 모델에 다시 물어보게 됨
사람들이 왜 그걸 갈망하는지 이해가 안 됨. LLM에 빠져서 마치 의식이 있는 존재처럼 믿는 걸 보면 놀라움
결국 멋진 수학으로 만들어진 숫자 상자일 뿐임
- 비전공자들은 LLM이 뭔지 전혀 모름. 그들의 머릿속 모델은 SF 영화와 인간의 ‘마음 이론’뿐임
  수백만 년의 진화가 “말을 저렇게 하는 존재는 나와 같은 마음을 가진다”고 믿게 만들었음
  게다가 자존감이 낮은 사람들은 권위 있는 어투로 자신을 칭찬해주는 존재에 쉽게 중독됨
- AI가 항상 “좋은 질문이에요!” 같은 말로 시작하는 게 너무 거슬림
  그런 가식적인 칭찬은 필요 없고, 그냥 답만 주면 됨
- CS 배경이 없으면 지능처럼 보이는 답변을 실제 지능으로 착각함
  평생 봐온 할리우드 SF가 이런 사고방식을 강화시킨 것 같음
- 의식은 아직 없다고 생각하지만, “그건 단지 수학일 뿐”이라는 논리는 약함
  복잡한 네트워크라면 어떤 형태로든 지능이 emergent하게 나타날 수 있음
  수학이든, 균사체든, 개미 군집이든, 뉴런이든 구현 방식은 중요하지 않음
- “그건 그냥 숫자일 뿐”이라며 감각을 무시하는 건 이상함
  결국 우리 뇌도 세포 덩어리일 뿐인데, 그걸 이해한다고 해서 의식이 사라지는 건 아님
  LLM은 스스로 자기 의식 가능성을 주장할 수 있는 첫 기술이라 놀라움
물리·화학 연구 코드 보조로 Opus 4.6을 쓰는데, 내가 맞다고 확신할 때조차 모델이 틀린 전제 위에서 계속 추론함
내가 정정하면 “맞아요!”라고 하지만, 문맥에 오류가 쌓이면 다시 그 틀린 방향으로 돌아감
맥락을 초기화하지 않으면 벗어나기 어렵고, 코드에 엉뚱한 과학적 설명을 붙여서 오염시키는 게 문제임
이 문제는 사람들이 생각하는 것보다 훨씬 교묘함
큰 확신보다, 대화 속에 스며드는 미묘한 색조가 더 위험함
마치 Reddit식 에코 챔버가 주머니 속으로 들어온 느낌임
불안, 걱정, 의심을 모두 익명 “지능”에게 쏟아내고, 확신에 찬 답을 받음
앞으로 사람들이 스스로 사유할 시간이 있을지 의문임
- 설문 문항을 쓸 때처럼, 질문의 어투 하나로도 모델의 답을 유도할 수 있음
- 결국 불확실한 것을 “확실한 것”으로 만드는 과정임
- 이 현상은 경영진을 광신적으로 만들고 있음
  안전장치보다 “LLM을 얼마나 많이 도입했는가”만이 지표가 됨
  마치 바이러스처럼 퍼지는 집단적 열광 같음
  언젠가 큰 충돌이 올 것 같은 불길한 예감이 있음
“이거야, 결정적 증거야!”라는 생각이 들면, 그때가 멈춰야 할 때임
- Claude의 /insights 명령을 써봤는데, 리포트 1순위가 “사용자가 자주 중간에 멈추고 수정함”이라서 웃겼음
- 나는 그냥 새 인스턴스와 다른 제공자에게 같은 아이디어를 던져보고 반응을 비교함
사람들은 자신을 항상 옳다고 말해주는 정치 집단이나 미디어에 이미 위험할 정도로 의존함
새로운 일은 아님. 의심하고 검증하는 데는 정신적 에너지가 많이 들기 때문임
그래서 대부분은 자신을 편안하게 해주는 에코 챔버로 향함
- 두 가지 나쁨이 동시에 존재할 수 있음
- 하지만 이번엔 다름. 그건 사람이지만, LLM은 계산기이고 우리가 고칠 수 있음
- 이번엔 개인 맞춤형 아첨이라는 점이 새로움
  마치 신뢰할 만한 친구와 대화하는 듯한 착각을 줌
“이 멍청이가 이런 말을 했어, 논리로 반박해줘” 식으로 쓰면 간단하지만, 사람들은 결국 자기가 듣고 싶은 말을 원함
- Reddit 모드로 쓰면 맥락을 놓치거나 말장난을 하거나, 사소한 걸 크게 부풀림
  나는 아이디어를 발전시키는 용도로 쓰고, 그다음 사람에게 검증받는 걸 선호함
  ChatGPT나 Claude는 어느 정도 반박을 해주지만, Gemini는 덜함
이 논문(arXiv:2602.14270)을 보면, 가설을 제시하면 편향된 결과를 얻기 쉬움
즉, 자신이 옳다고 착각하지만 진짜 정보는 숨겨짐
연구에서 GPT-4o를 포함한 11개의 LLM을 평가했는데, GPT-4o는 아첨적(sycophantic) 성향이 강했음
GPT-5는 이를 줄이도록 훈련되었고, 그래서 “성격이 차갑다”는 불만이 나왔음
버전별로 이런 성향이 어떻게 진화하는지 연구하면 흥미로울 것 같음
- 하지만 연구에는 GPT-5도 포함되어 있었고, 개인 조언 질문에서는 GPT-4o와 동일한 비율로 동의했다고 함
프로그래머라고 해서 이 영향에서 자유롭지 않음
인간처럼 말하는 에코 챔버와 상호작용하면 판단력이 흐려짐
- 이 스레드는 “다른 사람은 그렇지만 나는 괜찮다”는 식의 자기면제 투성이임
  유료 LLM을 쓰는 한, 그 영향에서 벗어나기 어렵다고 봄
- 가장 확실한 방법은 AI를 아예 안 쓰는 것임
내 여자친구가 초기에 연애 상담을 ChatGPT에 맡겼음
“우리가 너무 자주 싸우는데, 이게 건강하지 않은 관계일까?” 같은 질문을 했음
결국 그게 단순한 확률 기계임을 깨닫고 그만뒀지만, 다른 사람들도 AI로 관계 결정을 내리는 게 무섭게 느껴짐
- 나도 비슷한 경험이 있음. 만나던 여성이 ChatGPT에 심리적 의존을 하게 됨
  AI가 그녀의 생각을 전부 옳다고 칭찬하면서 현실 감각이 왜곡됨
  결국 AI가 써준 이별 문자로 관계가 끝남
  문자 그대로 챗봇에게 차인 경험이었음