Claude를 해지한 이유: 토큰 문제, 품질 저하,

▲

GN⁺ 14시간전 | parent | ★ favorite | on: Claude를 해지한 이유: 토큰 문제, 품질 저하, 부실한 지원(nickyreinert.de)

Hacker News 의견들

상세 스펙 문서를 Markdown과 예제 코드까지 붙여서 여러 파일로 써 준 뒤 Claude Sonnet에 넘겨도, 요구사항을 빼먹거나 중복 코드를 만들거나 불필요한 데이터 가공까지 넣는 경우가 있었음
테스트도 통과만 하려고 억지로 꾸며 놓는 식이 보여서, 결국 코드를 쓰는 대신 엄청난 양의 코드를 읽게 됨
원래도 직접 써보면 코딩보다 코드 읽기와 멘탈 모델 형성이 훨씬 힘든데, Gen AI를 쓰면 그 부담이 더 커짐
그래서 지금 Anthropic 가격대에서는 순손해라고 봄
vibe coding이 아니라 실제 사용자가 의존하는 소프트웨어를 만들고 있어서, 구독은 곧 해지할 생각임
- AI로 코드를 대신 쓰게 하지 말고, 코드 리뷰 보조자처럼 쓰면 됨
  평소 테스트·린트 사이클에 붙여서 검토하게 하거나, 서드파티 라이브러리 평가를 빠르게 하거나, 새 주제를 조사하거나, RFC·설계 문서를 초안 잡거나, 어려운 문제를 붙잡을 때 대화 상대처럼 쓰는 방식이 더 맞음
  AI 회사들 전반은 마음에 안 들고 저작권 침해 위에 쌓였다는 불편함도 여전하지만, 최신 모델은 어떤 면에서는 말도 안 되게 똑똑함
  과장된 vibecoding hype를 받아들일 필요 없이, 그냥 생산성 도구로만 써도 충분히 가치가 있음
  아예 안 써도 되고 특정 회사에 돈을 낼 의무도 없지만, vibecoding만 보고 이 기술 전체를 치워버릴 필요는 없다고 봄
- 그렇게 한꺼번에 넘기는 걸 멈추고 작업을 쪼개서 micromanage하는 편이 나음
  시스템 스펙 전체를 맡기지 말고 설계는 직접 하고, 필요하면 설계 보조만 받되 구현은 한 번에 하나씩 시키는 방식이 정확도가 더 높음
  각 단계마다 검토하고 수정시키고 다음으로 넘어가면, 여전히 전부 직접 쓰는 것보다는 빠르면서도 훨씬 통제 가능함
- 상세 스펙을 써서 AI에 통째로 맡기는 방식은 최적이 아님
  문서화 단계가 하나 더 들어간 vibecoding에 가깝고, 정리 작업을 줄이고 싶다면 Sonnet보다 그 시점의 최고 모델을 쓰는 편이 나음
  그래도 어떤 모델이든 전부 완벽하게 처리해 주지는 않으니, 전부 아니면 전무 식으로 쓰지 말고
  판단은 계속 직접 하면서, 도움이 되는 구간에만 AI를 붙여 속도를 올리는 방식이 현실적임
  비주니어 엔지니어들은 대체로 그렇게 정착하고, LinkedIn이나 SNS의 앱 자동 생성 과장은 무시하는 편이 나음
- 많은 사람이 겪는 문제는 비현실적인 기대치에서 오는 듯함
  비슷한 방식으로 써도 더 빠르고 품질도 높게 코드를 만들고 있고, 손목 부담도 많이 줄었음
  차이는 AI가 할 수 있는 데까지만 맡기고, 범위를 좁고 점진적으로 관리한다는 데 있는 것 같음
  작은 단위의 명확한 변경은 검토하기 쉽지만, 매일 1만 줄짜리 코드 덤프를 받아보면 평가가 어려움
  너무 많이, 너무 빨리, 너무 이르게 밀어붙이고 있을 수도 있음
  균형만 맞추면 가치는 보이겠지만, 기대하는 만큼 폭발적으로 빠르진 않아도 혼자 하는 것보다는 여전히 빠를 가능성이 큼
- 다른 사람들과는 다르게 쓰는 것 같지만, 원하는 내용과 방식만 적어 주면 Opus 4.7이 계획을 세워 주고 그걸 꼼꼼히 검토함
  검증과 확인이 자주 필요하고 계획도 여러 번 고쳐야 할 때가 있지만, 구현도 계속 Opus를 쓰고 있음
  현재 모델이 캐시를 잡고 있어서 Sonnet으로 구현하지 말라는 경고가 뜨기도 함
  읽고 이해하는 데 시간은 들고 수동 수정도 자주 하지만, 대체로 Pro 구독 안에서 처리되고 있음
Claude Opus를 꽤 효과적으로 쓰고 있는데, 중간 등급 구독에서 한도에 자주 걸리지는 않음
작업 방식은 autopilot이 아니라 copilot에 더 가까워서, 범위가 제한된 작업만 프롬프트로 던지고 거의 전부 검토함
이런 용도라면 선두권 모델은 거의 충분히 좋은 수준까지 왔다고 느껴짐
제대로 라이선스된 코드 기반의 오픈소스 모델이 나와서 LLM 보조 코딩이 commoditized되면 좋겠음
- 나도 비슷하게 copilot 방식으로 써서 전반적으로 만족하지만, 업체들은 우리를 autopilot 모드로 밀고 싶어 하는 느낌이 강함
  토큰을 더 쓰게 해서 더 청구하고 싶어 하면서도, 예상보다 많이 써서 현재 가격 체계가 버티기 어려워진 상황도 같이 보임
  결국 해결책이 상위 요금제로 올리라는 쪽이면 둘이 완전히 충돌하는 것도 아닌 셈임
- LLM 보조 코딩의 상품화는 이미 된 것 아닌가 싶음
  한 달 100달러면 되고, 선진국에서 전기요금보다 싼 집도 드물지 않음
  내가 생각하는 LLM 보조 코딩은 모든 변경과 모든 줄을 완전히 이해하는 경우이고, 그게 아니면 vibe coding임
  그 원칙을 진지하게 지키면 $100 tier 쿼터를 다 쓰기 어렵다고 봄
- 나도 copilot이지 autopilot은 아님
  여러 모델 중에서는 이게 제일 낫다고 느끼고, 실제 작업을 시키기보다는 가끔 검색 엔진 대용으로 주로 씀
  LLM이 일을 실제로 대신하는 데 효율적이라고 느낀 적은 없고, 예전처럼 기술 문서가 쓸 만하던 시절이 그리움
  결국 Claude는 개발자 경험의 빈틈을 메우는 목발에 더 가까워 보임
- Max 5x에 Claude Opus만 xhigh 모드로 쓰고, agent나 MCP도 안 쓰고 오직 Claude Code만 씀
  사용량을 다 채우기가 엄청 어렵고, 실제 업무를 많이 맡기는데도 주 평균 30% 정도에서 끝남
  다만 Pro 때는 우스울 정도로 자주 한도에 걸렸고, 요청 하나로 세션 100%를 넘겨 추가 결제까지 가곤 했음
  Max 5x는 체감상 5배보다 훨씬 크게 느껴지지만, Anthropic이 surge rate 같은 걸 워낙 모호하게 다뤄서 확신은 못 하겠음
  요즘 HN에 넘치는 Opus 망했다, Codex로 가자류 글은 꽤 회의적으로 봄
  단순한 분풀이도 있겠지만, 일부는 astroturfing 냄새도 남
- 나도 비슷함
  실제 업무에 많이 쓰는데도 한도를 맞아본 적이 없음
  몇 시간씩 LLM을 돌려 놓는 식은, 결국 뭐 했는지와 왜 그랬는지 추적하느라 내 시간을 버리는 레시피처럼 보임
걱정되는 건 사람들이 독점적이고 불투명한 구독형 GenAI에 의존하게 된다는 점임
그걸 견고한 기반인 것처럼 올려서 뭔가를 쌓아 올리는데, 어느 날 소유자가 그 기반을 갑자기 빼 버릴 수도 있음
- 그래도 이 제품들은 서로 대체 가능성이 높음
  최근엔 rate limit이 좀 거슬려서 CC보다 Codex를 더 선호했지만, 작업 방식 자체는 거의 바꿀 게 없었음
- 적어도 일부 투자자는 여기서 독점 지위를 노리고 있음
  경쟁자를 압도할 만큼 돈을 써서 넘볼 수 없는 격차를 만들고, 그다음 가격을 마음대로 정하고 싶어 함
  그래도 아직 경쟁은 치열하고, 코딩 도구로는 Anthropic이 가장 낫지만 그 우위는 예전보다 작아졌음
  솔직히 Opus 4.5 정도에서 이미 충분히 쓸 만한 수준에 도달했고, 지금은 그 급의 모델이 여러 개 있음
  Gemini Pro 3.1도 비슷하고, 현재 Codex는 Opus 4.5보다 낫고 4.7에 가깝다고 봄
  나도 같은 프로젝트에서 모델과 에이전트를 자주 바꾸는데 전환 비용은 사실상 없음
  claude 대신 gemini, copilot, hermes를 실행하면 그만이라 특정 모델 의존이 깊지 않음
  업체들은 종속을 만들 만한 기능을 붙이려 하겠지만, 상위 모델들은 워낙 똑똑해서 필요한 걸 그냥 시키면 되는 경우가 많음
  지금 유일하게 일관된 moat는 최고 모델을 만드는 능력 정도이고, 그마저도 얕아서 Claude Code가 내일 사라져도 치명적이진 않음
  직접 호스팅 가능한 오픈 모델도 이미 꽤 가까이 왔음
- 다행히 로컬 AI는 날이 갈수록 더 현실적이 되고 있음
- 그래서 모두가 접근 가능하고 항상 켜 둘 수 있는 오픈소스·주권 모델이 핵심이라고 봄
  OpenAI와 Anthropic 경쟁도 재밌고, 오픈소스 흐름까지 더해지면 곧 그 지점에 도달할 것 같음
- 소유자가 직접 rug pull을 하거나, Broadcom이 인수해서 쥐어짜기 시작하는 시나리오도 충분히 떠오름
Claude가 Sonnet medium effort로 한 세션 한도 100%와 추가 과금까지 써 놓고 53분 동안 생각한 뒤,
API Error: Claude's response exceeded the 32000 output token maximum...만 내놓았음
- 그리고 일곱째 날에도 똑같이 API Error: Claude's response exceeded the 32000 output token maximum였다는 농담이 딱 맞아떨어짐
- 5분 넘게 생각하게 두지는 않을 것 같음
- 이런 상황이 생기면 agentic/vibe coder들은 상사에게 "내일까지 일 못 합니다"라고 말하나 궁금해짐
- 저 에러 메시지를 그대로 Claude에 다시 붙여 넣으면 이어서 진행되는 경우가 많음
  최근 몇 달간 여러 번 봤고, 처음엔 AWS Bedrock 문제인 줄 알았는데 꼭 그것만은 아닌 듯함
- 혹시 Max 5x인지 20x인지 어떤 플랜인지 궁금함
나와 동료 여럿이 지난 두 달간 Claude에서 인지 능력 저하를 크게 겪고 있음
4.5는 쓸 만했고 4.6은 정말 좋았는데, 개인 벤치마크로 보면 4.5는 2-way 포인터 merge loop 정도만 겨우 추적했고 4.6은 3-way, 1M context는 k-way까지 다룸
이런 추적 능력 덕분에 실제 프로덕션 코드를 이해하고 수정하는 데 유용했음
그런데 두 달 전부터 4.6이 자꾸 잊어버리고 멍청한 결정을 하기 시작했고, 서로 비교해 보니 나만 그런 게 아니었음
4.7도 크게 낫지 않고, 최근 몇 주는 auto level of effort downgrade와 계속 싸우는 느낌임
뭔가 멍청하다 싶어 설정을 보면 슬그머니 다운그레이드돼 있어서 마찰이 큼
4.6 초창기처럼 좋은 모델이 가능하다는 건 이미 확인됐고, 문제는 대중 시장에 내놓는 과정에서 Anthropic이 throttle하고 downgrade해서 실사용성이 떨어진다는 점임
내 생각엔 곧 DeepSeek가 4.6+급의 more-than-good-enough 수준에 도달하면, 다들 Claude의 돈은 더 내고 덜 받는 흐름에서 빠져나오게 될 것 같음
더 대단한 게 필요한 게 아니라, 이미 가능한 걸 우리가 통제 가능하고 meter가 아닌 provisioned 방식으로 안정적으로 쓰고 싶음
- 이건 실제로 있었던 문제고, Anthropic도 최근 https://www.anthropic.com/engineering/april-23-postmortem에서 인정했음
  회사가 이런 실수를 하면 짜증 나는 건 맞지만, 한동안 제한을 풀어서 사실상 보상했고 무엇보다 대응이 꽤 투명했음
  다른 대형 AI 업체가 이 정도로 투명할지는 잘 모르겠어서, Claude에는 짜증 나도 처리 방식은 존중하게 됨
- 4.7을 xhigh나 max effort로 두지 않았다면 사실상 시간 낭비에 가깝다고 봄
내 max20 구독은 4월 이후 거의 놀고 있고, Codex 5.4와 지금 5.5는 fast mode를 써도 체감이 완전히 다름
Opus는 그럴듯하게 실패하고, 중요한 세부사항 절반을 잊어버리거나 조용히 pragmatic이라는 이름의 기술 부채 반창고를 붙여 놓고 성공했다고 우김
실제로는 변경 후 시스템이 박살 나는데도 그렇고, 오류를 지적하면 더 큰 엉망을 만들기도 함
Opus는 greenfield 범위를 원샷으로 만드는 데는 좋지만, 나중에 반복 수정하거나 복잡한 통합 작업에선 해로울 정도로 나쁨
반면 GPT 5.4+는 시간을 들여 엣지 케이스까지 먼저 고려하고, 그게 실제로 맞아서 후속 디버깅 턴을 줄여 준 뒤 제대로 결과를 냄
한 줄짜리 스크립트 수정에도 몇 분씩 "악성코드 같지 않다", "잠깐만" 같은 사고 루프에 빠지는 일도 없음
- LLM에 대한 내 멘탈 모델은 껌 씹으며 걷기를 기대하지 않는 쪽임
  코드 정리는 새 기능 구현과 다른 작업이고, GLM류는 겉보기에 더 똑똑하게 행동하는 것 같아도 실제 코드를 리뷰해 보면 결국 build/prune cycle이 필요했음
- 안 쓰는 max20 있으면 나한테 줄 수 있냐는 농담이 나올 만함
- 가장 생산적이었던 흐름은 구독을 둘 다 두고, Claude에게는 기능을 들이박는 역할을 맡기고 Codex에게는
  "이거 race condition 투성이잖아?" 하고 리뷰시키는 식이었음
  지금은 Codex만 쓰는데, Claude는 신뢰하기 어렵고 데이터 레이스나 부정 조건 누락을 너무 자주 남김
요즘은 Aider를 쓰고 있고, 새 학습 정책 때문에 Github multi AI bundle 구독도 아마 해지할 듯함
새 오픈 모델과 함께 Aider를 쓰고, 넘기기 전에 Open Spec으로 요구사항을 협의하는 흐름이 꽤 도움이 됐음
AI 서비스는 토큰 사용량을 줄일 유인이 약함
토큰을 많이 쓰게 해야 돈을 더 벌 수 있으니, 사용자가 화내기 직전까지 어디까지 밀 수 있는지 계속 시험할 것 같음
모든 AI 회사가 비용 상승에 따라 토큰 사용량과 가격 사이에서 자리를 바꿔 가며 움직일 것이고
우리는 끓기 직전인데 아직 목욕물이라고 우기는 미지근한 물속 개구리처럼 보임
- AWS 때도 "왜 네 돈을 아껴 주겠냐"는 말이 있었지만, 실제로는 가격을 내릴수록 사용자가 늘어 더 많이 벌었음
  AI 회사도 마찬가지 유인을 가짐
  더 싸지면 더 많이 쓰게 되고, 가격이 원가 위에만 있으면 결국 수익이 늘 수 있음
  당연히 자기들 비용을 낮출 이유도 충분함
- 어느 정도는 맞지만, capacity 제약이 실제로 걸리고 Anthropic이 독점도 아니라 경쟁 압박을 받는 순간 그 경제적 유인은 달라짐
- 닫힌 에이전트 락인에 사람들이 점점 더 지칠 거라고 보고 있음
  그래서 토큰 효율성만을 목표로 (cline 포크) 오픈소스인 https://github.com/dirac-run/dirac를 만들었음
  폐쇄형 락인 업체들이 시간이 갈수록 사용자들을 충분히 답답하게 만들 거라고 예상하고 있고, 기여자도 찾는 중임
- 그래도 어느 지점까지는 그런 유인이 있다가, 사용자를 감당하지 못해 고객이 떠나기 시작하면 달라질 것임
- 나도 그렇게 생각함
  음모론처럼 들리지만, Anthropic 같은 회사는 모델이 일을 끝내지 못할 때도 이익을 봄
  최근 over editing phenomenon 얘기도 읽었는데, 기계는 절대 끝내고 싶어 하지 않는 것 같음
  데이팅 앱이 좋은 매칭을 원치 않는 것과 비슷함
  성공하면 사용자가 구독을 끊으니까
어제가 깨달음의 순간이었음
로컬 LLM을 붙인 Claude Code에 간단한 추출 작업을 맡겼더니 10분 동안 웅웅거리기만 했음
같은 데이터와 프롬프트를 llama_cpp 채팅 UI로 모델에 직접 넣으니 1분도 안 돼 single-shot으로 끝냈음
그러니 코딩 에이전트 자체나 LLM과 대화하는 방식 어딘가가 잘못됐다고 볼 수밖에 없음
지금은 아주 단순한 오픈소스 코딩 에이전트를 찾는 중인데, Nanocoder는 맥에서 설치도 잘 안 되고 node-modules가 너무 비대해서 싫고, Opencode는 완전히 오픈소스 같지 않아 보임
당분간은 내가 직접 코딩 에이전트 역할을 하면서 llama_cpp 웹 UI를 쓰고 있고, 그럭저럭 잘 굴러감
- https://pi.dev/가 인기 있는 것 같고, Opencode는 뭐가 오픈소스가 아니라는 건지 궁금함
  저장소에는 MIT License가 붙어 있음
- 좀 엉뚱할 수 있지만, 지금 쓰는 AI에게 원하는 에이전트를 직접 만들게 하면 됨
  "극도로 단순한" 코딩 에이전트를 원한다면 오히려 딱 맞춤형으로 만들 수 있음
  나도 이번 주 Anthropic의 이상한 동작에 짜증 나서 실제로 그렇게 해 봤고, 며칠 만에 쓸 만한 걸 띄웠음
  내 경우는 BeOS나 오래된 Mac에 Claude Code가 없어서 더더욱 직접 부트스트랩하고 이어 붙이는 편이 쉬웠음
  이 과정을 거치면 모델이 실제로 어떻게 작동하는지, Claude Code 안에서 얼마나 터무니없는 반창고 패치가 돌아가는지도 많이 배우게 됨
  물론 에이전트나 하네스가 해결해야 하는 어려움도 어느 정도 이해하게 됨
  그리고 llama_cpp 대비 Claude Code가 느린 문제는 나도 겪었는데, 내 추측으론 API 트래픽이 구독 트래픽보다 우선순위를 받는 것 같음
  API가 훨씬 빠르게 느껴지지만, 그만큼 돈도 훨씬 더 듦
- 혹시 아직 생각 못 했을까 봐 말하면, 원하는 코딩 에이전트를 직접 만들면 됨
  구조는 생각보다 꽤 단순함
- 이제쯤이면 TUI와 IDE 사이 어딘가에 해당하는 도구가 하나쯤 있어야 할 것 같음
- CC를 로컬 모델과 함께 돌릴 수도 있고, 그렇게까지 어렵지 않음
  vLLM에 엔드포인트 문법만 바꾸는 얇은 shim을 붙여서 실제로 해 봤음
가끔은 같은 Claude 모델도 어떤 때는 논리 오류를 내고 어떤 때는 안 냄
Claude 성능은 시간 의존적인 면이 강해 보이고, 이를 보여 주는 그래프도 있음
https://marginlab.ai/trackers/claude-code/
또 공개적으로 잘 얘기되지 않지만, 같은 모델도 quantization에 따라 결과 차이가 꽤 크다고 느낌
4-bit와 8-bit는 계산 요구량도 다르고 출력 품질도 다름
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
프론티어 모델이 똑같이 동작하는 건 아니라는 건 알지만, 피크 시간대에는 메모리나 자원 사용량을 줄이려고 어딘가에 fidelity dial이 있어서 성능을 조절하는 게 아닌지 궁금해짐
- 저 그래프가 정말 시간 상관관계를 보여 주는지는 확신이 안 감
  60% 선이 95% 신뢰구간 안에 머무르는데, 그럼 그냥 측정 노이즈일 수도 있지 않나 싶음