2P by ragingwind 2시간전 | ★ favorite | 댓글 5개

지난 한 달간 일부 사용자들이 Claude의 응답 품질이 저하되었다는 보고가 이어졌습니다. Anthropic은 이를 추적한 결과, Claude Code, Claude Agent SDK, Claude Cowork에 영향을 준 세 가지 서로 다른 변경 사항이 원인이었음을 확인했습니다. API 자체에는 영향이 없었으며, 2025년 4월 20일(v2.1.116) 기준으로 모든 문제가 해결되었다고 밝혔습니다. 이 포스트모템은 문제의 원인, 수정 내용, 그리고 재발 방지 대책을 담고 있습니다.

세 가지 장애의 원인과 경과

  • 추론 노력(reasoning effort) 기본값 하향 (3월 4일): Claude Code의 기본 추론 노력 수준을 high에서 medium으로 변경했습니다. UI가 멈춘 것처럼 보일 정도의 긴 대기 시간을 줄이기 위한 조치였으나, 사용자들은 응답 품질 저하를 체감했고, 결국 4월 7일에 원래대로 되돌렸습니다. 현재는 Opus 4.7에 xhigh, 그 외 모델에 high가 기본값으로 설정되어 있습니다.
  • 캐싱 최적화 버그로 인한 추론 기록 삭제 (3월 26일): 1시간 이상 유휴 상태였던 세션을 재개할 때, 이전 추론(thinking) 기록을 한 번만 정리하도록 설계된 기능이 버그로 인해 이후 모든 대화 턴마다 반복적으로 삭제되었습니다. 이로 인해 Claude가 자신이 왜 특정 작업을 했는지 기억하지 못하게 되면서, 사용자들이 겪은 "건망증", 반복 응답, 비정상적인 도구 선택의 원인이 되었습니다. 캐시 미스(cache miss, 저장된 데이터를 찾지 못하는 현상)가 반복 발생하면서 사용량 한도가 예상보다 빠르게 소진되는 부작용도 있었습니다. 4월 10일에 수정되었습니다.
  • 시스템 프롬프트의 과도한 간결화 지시 (4월 16일): Opus 4.7의 장황한 출력을 줄이기 위해 "도구 호출 사이 텍스트는 25단어 이내, 최종 응답은 100단어 이내"라는 시스템 프롬프트를 추가했습니다. 내부 테스트에서는 문제가 없었으나, 실제 코딩 품질에 부정적 영향을 미치는 것이 확인되어 4월 20일에 제거되었습니다.

문제 발견이 늦어진 이유

  • 세 가지 변경이 각각 다른 시점, 다른 트래픽 범위에 적용되어 전반적이고 일관성 없는 품질 저하처럼 보였고, 개별 원인을 특정하기 어려웠습니다.
  • 내부 테스트 환경과 실제 사용자 환경의 차이가 있었습니다. 캐싱 버그의 경우, 내부에서 진행 중이던 별도 실험과 UI 표시 방식 차이 때문에 재현 자체가 쉽지 않았습니다.
  • 기존 평가 체계(eval suite)가 충분히 넓지 않았습니다. 시스템 프롬프트 변경의 영향은 더 다양한 평가를 돌린 뒤에야 3% 성능 하락이 드러났습니다.

재발 방지를 위한 대책

  • 내부 직원이 실제 공개 빌드를 사용하도록 의무화하여, 내부 테스트용 빌드와의 괴리를 줄입니다.
  • 시스템 프롬프트 변경에 대한 통제를 강화합니다. 모든 변경 시 모델별 광범위한 평가를 수행하고, 각 라인의 영향을 개별 분석(ablation)하며, 점진적 배포와 충분한 검증 기간(soak period)을 둡니다.
  • Code Review 도구를 개선합니다. 실제로 Opus 4.7에게 관련 코드 저장소 전체를 맥락으로 제공했을 때 캐싱 버그를 발견할 수 있었다는 점에 착안하여, 코드 리뷰 시 참조할 수 있는 저장소 범위를 확대합니다.
  • 사용자 소통 채널(@ClaudeDevs)을 신설하여 제품 결정의 배경을 투명하게 공유합니다.

"의도적 품질 저하는 없었다"는 점에 대하여

  • Anthropic은 모델을 의도적으로 저하시킨 적이 없다고 밝히고 있으며, API와 추론 레이어(inference layer)에는 영향이 없었음을 확인했습니다. 다만, 제품 레이어(Claude Code)에서의 설정 변경과 버그가 복합적으로 작용하여 사용자 체감 품질이 떨어진 것은 사실입니다. 모든 구독자의 사용량 한도를 초기화하는 조치를 함께 발표했습니다.

그동안 공개빌드를 테스트하지도 않고 배포하고 배포한 뒤에도 테스트를 안했다는 얘길 길게도 써놨네요. 당장 제가 3월 26일에 버그를 바로 밟았는데 내부에서는 확인하는데 3주 걸리는게 말이 된다고 생각하나...

패치 되자마자 3-4시간 써야 다 쓰던 5시간 쿼타가 30분만에 소진되기 시작했는데 직원 계정은 5시간 쿼타가 없거나, 적어도 /usage 매번 보면서 작업해야할만큼 모자라지는 않으니까 발견하는데 한참걸렸겠죠.

어떻게 세 가지 장애 원인 전부 코스트 절감과 직접적으로 관련된 것들이죠 ㅋㅋㅋㅋㅋ
이렇게 성능을 저하할 정도로 GPU 리소스가 진짜 크게 쪼달리나 보네요.....

내부 직원이 실제 공개 빌드를 사용하도록 의무화하여, 내부 테스트용 빌드와의 괴리를 줄입니다.
ㅋㅋㅋㅋ