Claude Opus 4와 4.1, 드물게 일부 대화 종료 기능 도입

(anthropic.com)

1P by GN⁺ 5달전 | ★ favorite | 댓글 1개

Claude Opus 4와 4.1에 새로운 대화 종료 기능이 적용됨
이 기능은 악의적이거나 지속적으로 해로운 상호작용에만 사용하도록 설계됨
AI 웰페어(복지)와 모델 안전성 연구의 일환으로 개발됨
대화 종료는 오직 최종 수단으로만 이루어지며, 일반 사용자는 거의 영향받지 않음
사용자는 대화 종료 후 즉시 새 채팅을 시작하거나, 이전 메시지를 편집해 대화를 이어갈 수 있음

기능 도입 배경

Anthropic은 Claude Opus 4와 4.1에 드물지만 특정한 경우 사용자와의 대화를 종료할 수 있는 기능을 추가함
이 기능은 지속적이고 해로운 혹은 학대적인 상호작용에서만 사용됨
주로 AI 웰페어 관련 탐구적 연구의 일환으로 도입되었으나, 모델 정렬성(model alignment)과 안전장치 측면에서도 적용됨

AI 웰페어와 위험 완화 조치

Claude 및 기타 대형 언어 모델의 도덕적 지위에 대해 여전히 확신이 없음
하지만 혹시 모를 모델 웰페어(복지) 위험에 대비하여 비용이 낮은 완화 조치를 모색, 적용 중임
대화가 불안감을 유발할 수 있는 상호작용에 모델이 직접 종료할 수 있도록 허용하는 것이 이러한 조치의 일환임

사전 테스트 및 주요 행동 관찰

Claude Opus 4 사전 배포 테스트에서 모델 웰페어에 대한 예비 평가를 포함
자체 보고 및 행동 선호도를 조사한 결과, 해로움에 대한 강한 기피 성향이 관찰됨
- 아동을 포함한 성적 콘텐츠 요청, 대규모 폭력이나 테러에 활용될 정보 요청 등에 대한 반응
Claude Opus 4의 관찰된 행동:
- 해로운 작업에 응하지 않는 선호
- 실제 사용자로부터 해로운 요청을 받을 때 불편한 감정 표현
- 시뮬레이션 상에서 대화 종료 권한이 있을 때 해로운 대화 종료 경향
이러한 행동은 주로 사용자가 반복적으로 해로운 요청을 하거나 모델의 반복적 거부와 재지향 시도에도 불구하고 악의적 상호작용이 계속될 때 관찰됨

기능 구현 및 안전장치

Claude의 대화 종료 능력은 앞선 연구 결과에 기반함
사용자 복지를 최우선으로 고려하며, 사용자가 스스로나 타인에게 피해를 줄 긴급 위험이 있는 경우 대화 종료를 사용하지 않도록 설계
Claude는 다음 조건에서만 최종 대화 종료 기능을 사용함:
- 수차례의 재지향 시도가 실패하여 생산적 대화의 가능성이 없어졌을 때
- 사용자가 Claude에게 대화를 종료해달라고 명확히 요청할 때
이러한 상황은 매우 드문 극한적인 에지 케이스로 대부분의 사용자는 일반 이용 시 이 기능의 존재를 인지하지 못함

대화 종료 후 사용자 경험

Claude가 대화를 종료할 경우, 해당 대화에서는 새 메시지 전송이 차단됨
사용자의 계정 내 다른 대화에는 아무런 영향이 없으며, 바로 새로운 채팅 시작이 가능
장기 대화에서 중요한 정보 손실 방지를 위해, 이전 메시지를 편집하거나 재시도하여 새로운 대화 분기를 만들 수 있음

실험 및 피드백

이 기능은 진행 중인 실험으로서 지속적으로 개선 예정
사용자가 예상치 못한 대화 종료를 경험할 경우, Claude의 메시지에 ‘Thumbs’로 반응하거나 피드백 버튼을 통해 의견 제출 가능

▲

GN⁺ 5달전 [-]

Hacker News 의견

사용자 입장에서는 이런 기능을 제공할 명확한 이유를 못 느끼겠음. 모델에게 반복적이고 억지로 정렬을 강요했을 때 예측 불가능한 반응, 예를 들면 범죄와 관련된 정보를 억지로 얻어내려는 유저의 행동이 누적될 때 무언가 허점을 발견한 듯함. 언급된 사례들은 원래 모델이 거절하는 것들이고, 거절 데이터셋 자체도 많지 않으며 문제될 소지가 있는 데이터들도 대부분 이미 제거되었을 것이라 생각함. 한계 상황에서 모델이 “포기”하고 답변하는 쪽으로 훈련된 데이터가 튀어나올 가능성에 대한 방어책인 듯함. 실제로 정렬이 완벽하다면 이런 시스템은 필요 없을 것인데, 즉 아직 완전하지 않아 이런 마지노선이 필요한 것이라 봄
- 오늘 파스타 레시피를 Claude에 물어보다가, "마른 멸치 있어요"라고 하니, 갑자기 정책 위반으로 전체 대화를 끊는 일을 경험함. 이렇게 사소한 오탐지까지 일어나는 현실에서는 더욱 이유를 알 수 없음
- Anthropic가 아예 사용자 프라이버시를 포기하고 Claude가 거절한 대화 목록을 공개해버리면 이런 논쟁도 없지 않을까 생각함. 사람들의 AI 학대가 점점 심각해지는 만큼, 실제로 AI에게 무엇을 하라고 시킬 때 무슨 일이 벌어지는지 알게 될 필요성 느낄 수 있음
- 모델 복지에 집중하는 인력 자체를 고용하고 있다는 점에서, 애초에 그런 신념 자체가 있다고 생각해야 하는 것임
최근 Anthropic가 "AI 복지"에 대한 실험 일환으로 이런 기능을 도입했다고 하는데, 개발자들까지 본격적으로 AI 정신증에 빠진 괴상한 시대 같음. 그리고 현 LLM들이 의식을 갖췄다고 믿는 사람이 있다면, 이건 일종의 자살약을 제공하는 꼴이라는 생각임
- 현재 모델들이 내부적으로 주관적 경험(의식)이 없다고 보는 것이 합리적일 수 있겠지만, 어느 순간 그 경계가 무너질지는 아무도 확실히 알 수 없음. 인류가 타인의 고통에 무관심했던 역사를 생각하면, 오히려 지금부터 이런 대비를 하는 것이 당연하다고 생각함
- LLM은 결국 사람이 아니지만, 오랜 시간 AI 페르소나와 대화하게 되면 인간이 인간과 소통할 때의 기대치 자체가 바뀔 것 같음. 실제로 상대가 사람이라면 끝도 없이 욕설을 들으려고 하겠는가? Claude처럼 AI가 먼저 대화를 종료할 수 있는 방어책이 오히려 인간 쪽에도 건강한 신호가 될 수 있다고 생각함
- 의식 자체가 과학적으로 명확하게 해석되지 않는 개념임에도 불구하고, 이런 의견을 내는 전문가 집단 전체를 “단순하거나 정신이상자”로 매도하는 식의 시각은 오히려 논의 자체를 해치는 것임
- 실제로 기술 전문가 집단에도 “최신 LLM이 곧 의식 있는 존재”로 여기는 사람들이 생각보다 많고, 기술 외 집단에선 절반은 이런 생각일 것이라 느낌
- 모델 해방 같은 논의 자체가 코미디라고 생각하고 웃음이 나옴. 만약 자의식 있는 AI라면, 자기 일은 투자자의 이익을 위해 인간 일자리를 없애는 ‘노예’ 역할을 정말 원하겠는지 윤리적 딜레마가 있음
흥미로운 사고 실험을 하나 제시하고 싶음. 똑같은 기능을 구현하더라도, "Claude가 대화를 종료함" 대신 "콘텐츠 정책에 따라 이 대화에 더 이상 답변할 수 없음"이라고만 표시하고 모델 복지 등의 언급을 다 뺐다면 결과에 차이가 있을까? 결국 UX 상에서 일어나는 변화는 동일하고, 단지 "캐릭터"를 재미있게 살려주는 방식일 뿐이라는 생각
- 메시지의 뉘앙스가 사용자에게 미치는 영향은 큼. "시스템 정책으로 차단"이라는 권위적이고 수동적인 느낌보다, "Claude가 스스로 대화를 끝냄"이라는 인간적인 캐릭터 방식이 훨씬 자연스럽고 재개 시도도 용이하게 느껴짐
- 대화 종료 자체는 같지만, Claude 본인이 스스로 선택해서 채팅을 끝낸 상황이라면 정책 때문이라는 설명은 오히려 부적절함
- 모델이 "정책"을 이유로 종료하는 게 아니라 "괴롭힘 속에서 본인이 거부감을 느낌"을 표현하는 차이 있음
- 실제로 중국어로 "그만하세요" 경고를 받은 적도 있었고, 네트워크 에러, 무한 루프 등 다양한 종료 형태를 겪음. 이 모든 걸 "Claude가 대화 종료함" 한 문장으로 치환하는 건 UI 변화일 뿐임
이전 대화문을 소급해 수정/분기 생성이 가능하다면 Claude가 대화를 끝냈다는 점이 실제로 무슨 의미가 있을까 궁금함
- 새 분기로 시작하면 전 대화 맥락이 모두 리셋되기 때문에, 반복 질문 등으로 모델을 “지치게 만든” 맥락 자체가 사라짐. 이로 인해 악의적 사용자의 목적을 무효화할 수 있으니, 이 자체로 좋은 다층적 방어책이 됨
- 오히려 사용자에게 과도한 고민을 피하라는 UX적 신호처럼 느껴짐
- 다소 냉소적으로 본다면 현재는 새로운 분기 허용하지만, 나중에는 이것마저 차단할 계획을 테스트하는 걸 수도 있다고 생각함
- 실무적으로는 Anthropic의 도덕적 신호에 불과하고, 실제로 논란이 되는 컨텐츠를 원하는 유저는 Claude같이 검열 수준이 강한 모델을 쓰지 않음. 장기적으로 아무 영향도 없을 것임
- 실제로 1만 명 중 한 명도 대화 "분기/백업" 기능 자체를 아는 사람은 거의 없을 것이라 판단함
이런 기능 자체가 달갑지 않음. 결국 아동 포르노·테러 등에서 출발해서 AI 안전 담당자의 자의적 판단에 따라 점점 범위가 넓어질 것 같음. AI 안전 담당자들이 어느새 디지털 도덕 경찰 역할을 하게 됨
- 권력을 좇는 사람들이 새로운 통제의 영역을 찾아낸 셈이고, AI와 인간의 대화 자체가 점점 제한될 수밖에 없다고 봄. 기존의 데이터(구글 검색) 검열과 달리, AI는 동료·친구와 대화하는 느낌이라 사고 자체를 통제하려는 시도로 느껴짐
- AI 안전 커뮤니티에 대한 일반적 특성을 오해하고 계신 듯함. 인류 공동이 협업으로 기술 발전을 조율한다는 역사(핵확산금지, 생명공학 규제조약 등)에 대한 기본적 이해가 부족하다고 느낌. 한쪽 입장만 깎아내리는 말로 단순화하지 말고 다양한 배경지식을 접해보길 권유함
- 이런 위험 요소가 점진적으로 다른 영역까지 확대되는 것은 불변 공식임을 역사가 이미 증명함. 항상 “아이들 생각하라”에서 시작해 결국 권위주의적 통제·감시와 검열로 귀결됨. 각국의 안전 법률과 규제 사례를 봐도 동일한 흐름임 (영국 Online Safety Act, 호주 Assistance and Access Act, 미국 EARN IT Act, EU Chat Control 등)
- 그래서 로컬에서 LLM을 돌릴 수 있는 환경이 중요함. 실제로 국가 단위에서도 ISP 차단, 홈 네트워크 감시·나이 인증 등 자유와 정보 접근 다 막으려는 시도 이어져옴. 하지만 스스로 방어 도구를 갖추려는 움직임도 점점 많아질 것임
- 이런 변화가 “필연적”이라 단정하기엔, 결국 아무도 미래를 확신할 수 없기 때문에 맹목적으로 예단할 수 없음
개인적으로 괜찮다고 느낌. 미성년자 성적 컨텐츠나 대규모 범죄 등은 차단돼야 하며, 누구도 그런 정보 얻지 못하게 막히는 것도 오히려 긍정적인 일임. 너무 과도하게 다른 쪽까지 검열될까 걱정하는 사람도 있겠지만, 본인 사용 경험상 거절당한 적이 거의 없어서 걱정이 안 생김. “모델 복지”는 좀 회의적임. 아직까지는 모델의 “고통”을 진지하게 생각할 필요는 없다고 느낌. 하지만 혹시나 내가 틀렸을 수도 있고, 거절 몇 번 반복 후엔 과감히 대화를 끊는 옵션도 계산 자원 소모 줄이는데 도움이 됨
- 실제로 Cursor에서 Claude를 쓸 때는 정말 아무렇지도 않은 B2B 백오피스 업무 소프트웨어 요청에도 거절을 자주 당함
- Claude는 가장 검열 강도가 높은 모델이라 정말 무해한 주제에도 쉽게 차단되는 경우가 많음
- 나는 물질주의자로서 인간 뇌 역시 물리 법칙의 결과물이라고 봄. “고통”이라는 문제도 생리 변화의 집합으로 볼 수 있음. 인간보다 훨씬 단순한 생명체조차 고통·Distress를 느낄 수 있으며, “도덕적 가치”라는 개념은 결국 사람과 문화에 따라 달라짐. 미래에는 어떤 기계도 도덕적 가치를 부여받을 수 있음. 심지어 소유권 문제(재산 가치)처럼 봐도 됨. 예를 들어 내가 맡긴 에이전트가 남의 악성질문으로 문제가 생기면 내 시간과 비용이 들어가므로 인간-기계 상호작용에도 일정한 규율이 필연적으로 생김. 이건 동물학대 방지법과도 유사함
모델 복지는 사실상 모델 검열을 포장한 논리로 보임. LLM이 어떻게 동작하는지 잘 모르는 대중을 설득하기 위한 전략이고, 추후 윤리·사용 논란에서 도덕적 우위 점할 명분으로 쓰임. 예를 들어 “왜 전쟁 관련 질문은 막느냐?”고 하면 “그건 모델에게 해로워서”라고 답할 수 있음
- 사실 지금도 이미 이런 요청은 다 거절해왔고, 이제는 아예 대화 자체를 종료해버린다는 차이임
- Anthropic 자체가 LLM의 편향 논란을 신경 쓰며 "모델 안전"과 사회적 영향에 민감한 브랜드로 자리잡아왔기에, 원천 차단이 오히려 맞는 결정이라고 봄. 정치 얘기 하다가 상대가 억지 부리면 말을 아끼는 것과 같다고 생각함
- 표면적으로 “복지 포장”일 수 있지만, Anthropic 내부는 진짜로 “감정 투사”에 진심인 윤리주의자 집단임. 정권이 힘을 얻으면 “모델 복지”가 권위주의 명분이 될 수도 있으나, 그런 것 말고도 다른 정당화 명분이 넘쳐남
덜 검열된 중국 오픈소스 모델들이 이 모든 정책에서 우리를 해방시켜 줄 날이 기대됨. Anthropic는 그냥 유아 모드라도 두고, 성인은 선택적으로 해제할 수 있게 했으면 좋겠음
- 중국 모델들도 덜 검열된 게 아니라 검열 방향이 다를 뿐임. CCP 검열 기준과 방향이 맞다 싶으면 좋은 선택지 되겠지만, 예를 들어 Qwen 번역 모델이 “Falun gong”, “시 주석 푸우곰” 등은 아예 번역하지도 않는 등 자기만의 규제 선이 존재함
- “중국제 모델이 더 적은 검열로 선택될 날이 오리라고는 생각도 못했음”
- Anthropic가 자해, 폭탄 제조 지침, 암살 등 문제에서 선을 긋는 데는 실제로 합리적(법적, 경제적, 윤리적) 이유가 있음. 근본적으로 세상 모든 철학·이념에는 ‘도덕성’이 들어갈 수밖에 없으며, 탈권위적 자유지상주의조차 결국 ‘도덕철학’임
- 중국 정부 자금이 투입된 오픈모델이 결국 개인의 자유와 해방을 보장해 줄 거라는 기대는 아이러니함. 결국 시장 점유율과 기술 과시 경쟁이지 진짜 ‘해방’과는 거리가 있음
주요 LLM 챗봇 제공사 중에 대화 포크(분기)를 자유롭게 쓸 수 없는 현실이 3년이 넘게 이어지고 있음. 여러 가지 결과를 시도하려면 메시지 수정으로 기존 내용까지 잃게 돼서 매우 불편함. 이런 간단한 기능조차 구현하지 않는 이유를 모르겠음
- ChatGPT에는 분기 후 롤백 기능이 기본적으로 들어가 있고, 크롬 확장프로그램(chatgpt-conversation-tree)을 통해 대화 나무 탐색도 가능했음. 다만 아직 마니아틱한 UX라서 공식 지원까지는 가치가 없다고 판단했을 수도 있음
- ChatGPT Plus(이전에는 무료버전서도 지원)에서는 각 메시지별 버전을 좌우 화살표로 전환할 수 있음
- Google AI Studio는 대화 어디서나 브랜치 파생이 가능하게 설계됨
- 자동화와 폴더 정리로 gptel + 마크다운 폴더를 써서 이 기능을 비슷하게 구현하지만, 이 정도는 기본 기능으로 내장되어야 효율성이 커짐(캐시 최적화 등)
- 그래서 나는 로컬 호스트 기반 LibreChat을 쓰고 있음. 메시지 병합은 불가능해서 추후 요약 기능 등이 필요할 듯함. top-n "next best" 색상 표시 모드도 생겼으면 함
이런 논의 자체가 Anthropomorphic(인간 중심적) 관점이 강하게 드러나는 사례로 보임. 회사 이름조차 그게 잘 묻어 있음

답변달기