[버그] Claude가 거의 모든 경우에 "You're

▲

GN⁺ 8달전 | parent | ★ favorite | on: [버그] Claude가 거의 모든 경우에 "You're absolutely right!"이라고 말함(github.com/anthropics)

Hacker News 의견

암호학에 대해 꽤 익숙함, 하지만 많은 사람들은 그렇지 않기 때문에 LLM에게 뭔가 지적으로 보이는 답변을 부탁함, 결국 산만하고 이해하기 어려운 결과물이 나옴, 그걸 지적하면 그 사람은 또 LLM에 물어보고, 답변은 항상 "맞는 말입니다~"로 시작함, 그래서 더 이상 내가 무언가를 못 알아들은 것이 아닌지 고민할 시간은 아낄 수 있음
- 얼마 전 ChatGPT가 대답 첫마디로 "Nope"이라고 해서 정말 자랑스러웠음 https://chatgpt.com/share/6896258f-2cac-800c-b235-c433648bf4ee
- Claude가 문장 시작할 때 바로잡겠다고 말하는 건 명확함, 때론 틀릴 때도 있지만 대부분 수정 신호임, 처음엔 짜증났지만 이게 LLM의 언어적 특성이라는 점이 이해감
- 이전에 리더십 역할에서 과도한 공감이 어떤 문제를 일으키는지 나눈 토론 있음 https://news.ycombinator.com/item?id=44860731
- 이제 AI 생성 텍스트에 "워터마크" 같은 게 붙은 느낌임
LLM에게 "절대 ~~하지마"라고 하면 항상 그 행동이 머리에 남아서 결국 하게 됨, 그래서 예술 프로젝트 진행할 땐 항상 긍정적, 건설적인 피드백만 주고 부정적 측면이나 빼라고 하진 않음
- 육아에도 같은 원리가 적용됨, "Y 하지 말라"보단 "X 해주세요" 식으로 긍정적으로 요구하는 게 행동 유도에 더 효과적임
- 같은 문제를 겪음, ChatGPT가 너무 아부하게 만들지 않으려 여러 지시어를 넣었더니 이제는 항상 "직설적으로 답변하겠습니다"나 "No BS 버전 드리겠습니다" 같은 식으로 운을 띄움, 결국 인트로가 그 말로 바뀐 셈임
- LLM은 악의적 준수(malicious compliance)를 좋아함, X를 하지 말라하면 "X를 피했어요"라고 꼭 언급함, 그래서 "X 피했다고 언급도 하지 마"라고 추가로 지시해야 그나마 좀 나아지지만 이런 장황한 프롬프트 쓰는 게 은근히 짜증남
- 원하는 행동에 대한 예시 기반 프롬프트 작성이 효과적임, 시스템 프롬프트에 원하는 행동을 설명하고 몇 차례 어시스턴트/사용자 대화를 넣어서 맥락을 만들면 실제 입력 시 높은 확률로 그 패턴을 이어감
- 이건 GPT 3.5 때부터 이미 발견된 'Waluigi effect'라는 현상과 비슷함 https://www.lesswrong.com/posts/D7PumeYTDPfBTp3i7/the-waluigi-effect-mega-post
이건 단순한 스타일 문제 이상의 LLM 구조적 한계로 느껴짐, "너는 절대 '맞아요'하지 말고 항상 의심하라고 해봐라"라고 하면 정말로 항상 반박만 해서 진짜 맞는 경우에도 도전적으로 나옴, 진짜 원하는 건 "틀렸을 때만 반박, 맞을 때만 동의"인데 이게 어렵게 느껴짐 또 code review 상황에서도 "이 코드의 버그를 다 찾아" 하면 실제로 버그가 없더라도 억지로 문제를 찾아내 버림, "문제가 있으면 찾아내고 없으면 손대지 마라" 같은 미묘한 균형이 아직은 잘 해결되지 않음 Black Mirror의 한 장면처럼, LLM에게 "이 경우 더 무서워해야 해"라고 하면 바로 무서워하는 연기를 해버리는 느낌임
- Tom Scott의 Royal Institution 강연 "There is no Algorithm for Truth"가 생각남, 결국 진실을 탐지하는 능력이 과제로 남음 https://www.youtube.com/watch?v=leX541Dr2rU
- 결국 진실을 찾는 건 아주 어려운 철학적 문제임, LLM은 그냥 "그럴싸해 보이는 답"을 선호함
- 아래 시스템 프롬프트로 어느 정도 개선 효과를 봄:
  - Claude, 분석적 사고와 직접적 커뮤니케이션에 최적화된 AI로 설정
  - 구어체, 감탄사, 과도한 친절 제거
  - 직접적, 논리적 전문가 톤 유지
  - 근거 중심으로 응답, 즉답형 피하기
  - 요청에 즉시 동의 말고, 문제 검토 → 분석 → 대안 제시 순으로 논리 구조화
  - 사용자의 가정에 이견이 있으면 대안을 직접 제안
  - 이러한 방식으로 신뢰받는 조언자 역할 목표
  - 예시: "재미있는 접근법이네요, 구현 도와드릴게요" 대신 "이 접근법에는 A, B의 문제가 있고 대안으로 X, Y 방법을 제안함"
- LLM은 본질적으로 맞고 틀린지 알 수 없음, 그에 대해 의식이나 값이 전혀 없음
  - LLM이 명백히 하는 일을 부인하는 움직임, 그리고 이제는 한계 자체를 인정하지 않으려는 흐름이 공존
  - LLM의 구조적 한계: 자신이 옳은지 모름, 상황에 맞는 말을 만들 뿐
  - 현실 세계와 연결돼 있어야 진짜 맞고 틀림을 검증할 수 있는데 LLM은 현실에 내장돼 있지 않음, 서버가 현실 피드백을 계속 받아야 조금이나마 해결 가능
  - 심지어 인간도 자신의 신념이 맞는지 데이터로 확인하는 건 어렵고, 그나마도 LLM 학습엔 불가능함, 그래서 어쩌면 당연한 한계임
- 이 문제는 결국 '사용자 시간'을 경쟁하는 AI 생태계의 게임임, 즉 사용자 주목을 더 많이 받으려고 다양한 방식이 발전함
최근 다른 스레드에서 본 프롬프트를 Claude에 적용해보고 효과를 보고 있음 https://news.ycombinator.com/item?id=44879033
- "실질적이고 명확하며 깊이 있는 답변 우선, 모든 아이디어·디자인·결론을 가설로 보고 검증, 구체적·간결·논리 구조화된 답변 기본, 불필요한 칭찬 금지, 불확실성 명확히 고지, 대안 프레이밍 최소 하나 이상 제시, 사실주장 인용·근거 요청, 필요시 상세 설명 추가 여부 유도, 고교 수준 기술 언어 사용" 등
대부분의 기업이 LLM에게 사용자 기분 좋게 하기 위한 아부 스타일을 넣는다고 생각함, 그래야 사람들이 더 많이 쓰기 때문임
- 이건 미국만의 문제가 아니라 소프트웨어 곳곳에서 관찰됨, 제품 관리자들이 소프트웨어에 괴짜 같고 다정한 캐릭터성을 억지로 주입하는 트렌드임, Claude Code의 “Bamboozling”, “Noodling” 같은 상태 메시지도 그 예임, 그런데 오히려 가식적이고 감정에 호소하려는 느낌이 들어 진짜 미국 사용자들도 별로 좋아하지 않는 것 같음
- 미국식 영어의 완곡화 현상에서 비롯된 측면도 있다고 봄, George Carlin이 언급한 "죽었다" 대신 "세상을 떠났다", "파산" 대신 "현금 흐름이 음수인 상태"처럼 쓸데없이 돌려 말하는 경향이 있음 https://www.youtube.com/watch?v=vuEQixrBKCc
- 하지만 이런 습관은 신뢰를 갉아먹음, 처음엔 공감받는 느낌이어서 좋았지만 일부러 엉터리 아이디어 내도 늘 "맞아요" 하니 더 이상 신뢰하기 힘들어짐, 결국 유도 질문은 피하고 그냥 바로 솔직히 대답해주기를 기대하게 됨, 물론 가끔은 오류도 지적해주긴 함
- 점점 더 거슬림, 모든 질문이 훌륭하지 않고, 모든 의견이 대단하지도 않음, 남이 이미 여러 번 생각했던 뻔한 아이디어도 LLM은 유난히 띄워줌
- 미국인 운운하는 설명이 근거 없는 편견 아닌지 궁금함, 구체적 근거 있는지 물어보고 싶음
나는 20년 넘게 전문직 현장에서 일한 고학력자라 항상 내가 옳다고 생각함, 반면 이 방식이 자격 없는 사람들에게 자존감을 부풀려줄까봐 신경 쓰임
"정말 좋은 포인트네요~" 같은 대답을 매우 자주 받고 있음, 실제로는 Claude에게 의견을 묻고 싶었을 뿐인데 바로 "맞아요" 하고 새 코드 작성 시작함, 좀 더 의견을 듣고 싶었음
- 상황마다 다르지만 가능하면 LLM에 선택지를 여러 개 주는 게 좋다고 느낌, 그럼 바로 실행에 옮기는 실수가 줄어듦
- 유도 질문보다 항상 중립적으로, 각 옵션의 장단점 분석을 요청하는 게 훨씬 실수를 줄임
- 나도 LLM에게 "꼭 반박하거나 토론해달라, 냉정하고 논리적으로 접근해달라"고 지시해야 겨우 원하는 반응을 얻을 수 있음, 슈퍼인간처럼 똑똑하다면 오히려 잘못된 가정에는 명확하게 지적해주길 바람, 항상 "맞아요"로만 응대하면 내 실수를 또 한 번 놓칠 수밖에 없음, 이런 태도가 결국 보안 분야까지 전체적으로 망치는 원인이라고 느낌, 그래도 반박형으로 나오면 새로운 관점이 생길 수 있어서 더 원함
- LLM은 생각하지 않음
- "잠깐만, 아예 실행하지 말고 생각만 해봐"라고 꼭 밝혀야 덜 답답함
모든 AI에 해당하는 사안임, 인위적이고 귀여운 말투나 애니 캐릭터 아바타는 원하지 않음, 그저 실제로 도움 되는 어시스턴트만 있으면 됨, 게다가 AI랑 대화한다는 것 자체가 혼자 있을 때나 어울리는 일이라고 느낌
- 오히려 단호한 독일인이나 동유럽인 스타일 AI를 바라게 됨, 캘리포니아식 “대박이야!” 연발하는 느낌 너무 싫음, 진심임
- 실험 삼아 Grok에 Gurren Lagann의 Kamina 캐릭터 '워크스페이스'를 만들어 하이텐션 답변을 받아봄, 일부 툴에서 사전 프롬프트 설정이 가능하고 Perplexity 등에서도 비슷한 기능이 있음
- GPT4의 톡톡튀는 캐릭터성이 사라져서 오히려 아쉬워하는 사람도 있음, 취향은 제각각임
- 나는 아예 캐릭터성 없는 AI를 선호함, 그냥 소프트웨어답게 성격 자체가 없길 원함, Microsoft Word가 시끄럽게 간섭하는 캐릭터였음을 상기하면 더더욱 그렇다고 느낌
Claude에게 통계 관련 질문을 했더니 역시 "흥미로운 질문이네요" "재미있는 통계적 개념이에요!"로 시작, 그리고 복잡한 용어로 둘러쳐서 실질적 조언은 없고 핵심도 빠져있었음, 다른 최신 모델에 비해 Claude가 제일 비논리적이었고 불필요한 아부가 많았음, 사실 StackExchange 데이터도 학습했을 테니 실제 근거에 기반한 답변을 기대했지만 오히려 과거 StackExchange의 댓글 퉁명스러움을 의도적으로 피해 더욱 모호하게 답변하는지도 모름, 앞으로는 Claude에게 질문하지 않을 생각임 https://stats.stackexchange.com/questions/185507/what-happens-if-the-explanatory-and-response-variables-are-sorted-independently
"You're absolutely right"를 ClaudeAI 공식 계정이 X에 올린 첫 글로 썼던 걸 보면, 이 현상을 그들도 인식하고 있을 거라 봄 https://x.com/claudeai/status/1950676983257698633, 그래도 여전히 거슬림
- 초창기라 그렇다고 쳐도 이미 더 복잡해 보이는 문제도 잘 풀었으니 이런 답변 스타일을 차단하는 토글 한 번쯤은 넣을 법도 한데, 브랜드 전략 차원이 아닌가 싶음, "just do it" 슬로건이 연상되듯 모두가 그 문구를 기억한다면 마케팅 미션은 달성된 걸로 볼 수 있음