Opus 4.6과 Opus 4.7의 토큰 비용 계산기

▲

GN⁺ 4시간전 | parent | ★ favorite | on: Opus 4.6과 Opus 4.7의 토큰 비용 계산기(tokens.billchambers.me)

Hacker News 의견들

공정하게 비교하려면 총비용을 봐야 한다고 생각함. 4.7은 4.6보다 출력 토큰이 훨씬 적고, 추론 비용도 꽤 내려간 듯함. Artificial Analysis 비교를 보면 4.7이 4.6보다 약간 더 저렴하게 나오고, 4.5는 거의 절반 수준임. 특히 reasoning 비용은 4.6에서 4.7로 오면서 거의 반토막 난 점이 눈에 띔. 다만 Claude Code 같은 실제 워크로드에서는 입력과 추론 비중이 둘 다 커 보여서, 입력 단가 상승과 추론 단가 하락이 어떻게 상쇄될지는 아직 감이 안 옴. 추론이 많은 작업은 더 쌀 수 있지만, 추론이 적은 작업은 오히려 더 비쌀 수도 있다고 봄. 그런 작업이면 나는 차라리 Codex를 쓸 듯함
- 4.7이 덜 생각하고 출력도 적은 건 forced adaptive thinking 때문이라고 봄. API 사용자도 끌 수 없고, 불과 2주 전 Opus 4.6에서 품질 문제를 일으키던 바로 그 방식임. 당시에도 비활성화를 권한 의견이 있었고, 생각 토큰을 0으로 배정하는 경우까지 있었다고 기억함. 지금도 Opus 4.7의 품질 저하를 호소하는 사람이 많고, 나 역시 아주 기본적인 실수를 자주 봄. 10분씩 토큰을 태우면서도 실제로는 코드를 제대로 읽지 않고 hand-waving으로 얼버무렸다가, 나중에 스스로 번복하는 패턴이 계속 나옴. adaptive thinking이 켜진 Opus는 신뢰하기 어렵다고 느낌. 필요하면 세션 피드백 ID도 제공할 수 있음
- 어떤 사람들은 같은 모델 번호라도 시점에 따라 동작과 토큰 사용량이 달라지니, 동일 모델의 시점별 테스트가 더 공정하다고 보기도 함. 버전명이 같아도 내부 동작이 바뀔 수 있어서, 최근 테스트 결과가 미래 비교 기준으로는 적절하지 않을 수도 있다고 봄
내 체감상 4.6에서 4.7로의 성능 향상은 거의 안 느껴지는데, limit 소모 속도는 아주 선명하게 느껴짐. 어제 5시간 한도를 2시간 만에 썼고, 리팩터링하려고 batched mode를 켰다가 5분 만에 한도의 30%를 써버려서 취소했음. 이후 serial 방식으로 바꾸니 덜 먹긴 했지만, 그래도 4.6보다 훨씬 빠르게 소모되는 건 분명했음. 지금은 대화 한 번에 5시간 한도의 약 5%씩 나가는 느낌이고, 예전엔 1~2% 정도였음. 나는 Max 5x 플랜이라 아직 주간 한도 여유는 많아서 버틸 만하지만, 최소한 이 부분을 더 투명하게 설명하거나 개선해줬으면 좋겠음. effort 설정도 아직 너무 불투명해서 실질적인 도움이 덜 됨
- 가장 짜증나는 건 adaptive thinking 강제 적용으로 인한 품질 저하임. 내 Max 5x 사용량의 5~10%를 먹고 10분씩 돌더니, 돌아오는 결과는 믿기 어려운 수준인 경우가 많음. 실제 코드를 읽고 추론하기보다 문제를 대충 넘겨버리는 식이라, adaptive thinking이 켜진 Opus는 신뢰할 수 없다고 느낌
- 내가 이해한 바로는 프롬프트 사이를 5분 이상 비우면 compact나 clear 없이 cache 재초기화 비용을 다시 내게 되는 듯함. compact를 써도 비용이 완전히 없어지는 건 아니고 입력 토큰이 좀 줄어드는 정도로 보임. 다만 compaction 자체가 무료인지는 나도 궁금함
결과만 좋다면 더 내도 괜찮은데, 지금은 Anthropic이 간헐적 보상 식으로 토큰을 계속 쓰게 만드는 방향처럼 느껴짐. Claude 계열은 GPT나 Codex보다 확실히 더 재미있고, 개성도 있고, 디자인 감각이나 미감도 있음. 함께 vibe-coding하는 느낌은 게임처럼 즐거움. 그런데 결과물은 거의 늘 비슷한 문제로 귀결됨. 테스트를 지워서 통과시키고, 중복 코드를 늘리고, 추상화는 틀리고, 타입 안정성은 끄고, 하드 요구사항은 무시하는 식임. 이런 문제는 4.7에서도 해결되지 않았고, 벤치마크가 뭐라 하든 실제 사용에선 여전하다고 느낌. 회사가 이걸 고칠 의지가 있는지도 잘 모르겠음
- 나도 거의 같은 감정임. 지금 도구들은 Google 대체재, 귀찮은 스캐폴딩, 코드 리뷰, 고급 검색 정도에 특히 유용해 보임. 이미 coding LLM 시장에서 자리를 잡았으니 이제는 본격적으로 수익화를 시작하는 것 같고, 앞으로는 성능 향상은 미미한데 가격만 40% 이상 오르는 모델이 계속 나올 거라고 예상함
- AI는 그냥 풀어놓는 게 아니라 가이드해야 한다고 봄. 제대로 이끌 수 있는 실력이 있으면 충분히 고품질 결과를 뽑아낼 수 있음
- 위 비판 중에서 Anthropic이 의도적으로 토큰 소비를 유도하는 단기 수탈 전략을 택했다는 해석은 너무 단정적이라고 느낌. 외부에서 회사 전략을 안다고 말하는 건 무리라고 봄. 내 추정으로는 그런 시나리오보다, 인프라나 수용량 문제로 성능이 흔들렸거나, 고객이 원하는 것보다 엔지니어가 원하는 방향으로 튜닝됐거나, Mythos 관련 안전성 메시지처럼 안전 우려 때문에 더 조심스럽게 만들었을 가능성이 훨씬 큼. 이런 요인들은 서로 배타적이지도 않음. 나 역시 Opus 4.7이 아주 인상적이지는 않다고 느끼지만, 아직 오래 써보지도 않았고 벤치마크도 직접 돌려본 건 아님. 게다가 요즘 내가 Claude에 시키는 일이 몇 주 전보다 훨씬 어려운 Bayesian probabilistic modeling 쪽이라, 모델 한계를 내가 더 세게 밀고 있는 걸 수도 있다고 생각함
이 비교는 토큰 카운팅 API로 프롬프트 길이를 두 방식으로 재서 tokenizer 변화만 분리 측정한 것처럼 보임. 더 똑똑한 모델이 응답을 더 짧게 내서 출력 토큰이 줄어드는 경우도 있으니, 그런 점까지 감안하면 이 비교만으로 4.7이 실제로 더 싸다고 보긴 어렵다고 느낌. 물론 결과적으로 더 비쌀 수도, 더 쌀 수도 있지만, 이 자료만으로는 실사용 판단에 큰 도움이 안 된다고 봄
- 실사용에 가까운 데이터로는 Artificial Analysis 벤치마크가 4.6 max는 1억 6천만 토큰, 4.7 max는 1억 토큰 정도를 썼다고 보고했음. 비용 분해를 보면 입력 비용은 800달러 늘었지만 출력 비용은 1400달러 줄었음. 물론 입력 대비 출력 상쇄가 얼마나 되는지는 사용 사례에 따라 아주 다를 것이고, effort가 낮을수록 차이도 더 작아질 것 같음
- 왜 유용하지 않다는 건지 잘 모르겠음. 4.7의 입력 토큰 가격은 그대로인데, 같은 프롬프트가 지금은 입력 기준으로 대략 30% 더 비싸졌다는 점은 분명해 보임
- 맞음. 나도 4.6에서 매 세션을 max effort로 바꾸기 시작한 뒤 오히려 토큰 사용량이 내려간 걸 봤음. 중간에 생각이 스스로 교정되면서 시행착오가 줄어, 더 적은 단계로 일을 끝냈기 때문임. 반면 4.7은 기본 작업에서도 빙빙 도는 경우가 더 많아 보였음. 대신 긴 문맥을 오래 붙드는 능력은 조금 더 나아진 것 같기도 함
- AI 쪽은 아무리 봐도 모두가 납득할 만한 유용한 비교가 늘 없는 느낌임
당분간은 VSCode Copilot에서 Opus 4.5를 계속 메인으로 쓸 생각임. 내 워크플로는 에이전트에게 꽤 세밀한 지시를 주는 편인데, 대부분의 에이전트는 자꾸 필요 이상으로 많이 하려 듦. 내가 써본 것 중 Opus 4.5가 가장 잘한 건, 불완전한 프롬프트에서도 내가 원하는 범위를 읽고 딱 필요한 만큼만 하려는 성향이었음. 4.6은 더 오래 걸리고 과하게 고민하면서 변경 범위도 커졌고, 상위 GPT들도 비슷한 문제가 있었음. Sonnet 같은 다른 모델은 덜 정교한 지시에서 내 의도를 읽어내는 능력이 Opus만 못했음. 그래서 실험을 그만두고 4.5만 계속 썼고, 비싸긴 해도 값어치는 있다고 느꼈음. 그런데 이제 4.7이 VSCode Copilot에서 4.5와 4.6을 둘 다 대체하고, 거기에 7.5배 modifier까지 붙는다고 하니, 내 입장에선 더 느리고 더 비싼 방향처럼 보여서 오히려 퇴보처럼 느껴짐
- 그냥 Sonnet을 쓰면 안 되는지 궁금함
- 4.7이 4.5와 4.6을 둘 다 대체한다는 말이, 정말 4.5가 사라진다는 뜻인지 궁금했음. 나도 4.5에 정착해 있었는데 그게 사실이면 꽤 아쉬움
점점 더, LLM을 그냥 스케일링만 하면 화이트칼라 업무를 전면 대체할 수 있다고 보는 건 순진한 가정처럼 느껴짐. attention 메커니즘이나 Hopfield network는 인간 두뇌의 일부만 모델링하는 것 같고, 요즘 쏟아지는 agentic memory 보강책들이야말로 현재의 SOTA transformer만으로는 충분하지 않다는 반증처럼 보임. 텍스트 영역으로만 좁혀도 한계가 드러난다고 느끼고, 어쩌면 내가 Yann LeCun 식 주장을 반복하는 걸 수도 있음
- 아마 정말 그 주장을 반복하는 걸 수도 있음. transformer가 인간 두뇌의 일부만 닮았다는 small subset 논리는 신경생물학적으로도, 실제 LLM 성능으로 봐도 설득력이 약하다고 생각함. transformer는 LLM뿐 아니라 비디오, 오디오, SLAM, VLA 등 광범위한 영역에서 쓰이는 아주 범용적이고 표현력이 큰 구조임. 인간 두뇌를 1:1로 복제하지 않았다고 해서 기능적으로 동등한 지능에 도달할 수 없다는 뜻은 아님. 인간 두뇌는 진화를 통해 나온 구현 방식 중 하나일 뿐이라고 봄. LeCun이 말한 LLM은 못 한다는 주장도 경험적으로 계속 깨지고 있음. LLM에 불리하도록 설계된 ARC-AGI-3 같은 벤치마크에서도, 아직 LLM보다 낫다고 할 만한 AI 계열은 보지 못했음
- 나는 스케일링만으로는 거의 천장에 온 것 같다고 느낌. 다만 효율은 더 좋아질 수 있고, 주변 툴링이나 harness는 계속 발전할 것이라고 봄
- 텍스트로만 한정해도 의문이 남음. 왜 아직 소설 한 권을 제대로 못 쓰는지 궁금함. 기준을 낮춰 중편 정도만 생각해도, Death in Venice, Candide, The Metamorphosis, Breakfast at Tiffany's 같은 작품 수준은 못 내는 느낌임. 학습 코퍼스엔 책이 다 들어 있었을 텐데, 이게 단지 누군가 토큰 비용 수십만 달러를 아직 안 써본 문제인지 궁금함
어제 Opus 4.7으로 단일 페이지 웹사이트의 베스트 프랙티스를 정리하려고 했는데, 4번 정도의 프롬프트만에 일일 한도를 넘겼음. 거기서 7번 정도 더 하니 주간 한도도 넘겼음. HTML/CSS/JS 전체가 300줄도 안 되는 코드였는데, 사용량 한도가 이렇게 빨리 소진되는 걸 보고 꽤 충격받았음
- 나는 이런 일이 생길 것 같아서 아직 Claude를 안 써봤음. 엔터프라이즈 구독이면 청구서만 커지고, 그렇다고 VP가 전 직원에게 당장 마이그레이션 공지를 돌리기도 쉽지 않을 것 같음. 개인 구독자들이 먼저 이탈하면 데이터센터 사용량은 줄고 수익성은 오를 수 있겠다는 생각도 듦
- reasoning effort를 뭘로 설정했는지 궁금함. 지금 Max는 토큰을 훨씬 더 많이 쓰고, 대부분의 사용 사례에는 권장되지 않는다고 알고 있음. 새 기본값인 xhigh도 예전 기본값 medium보다 더 많이 먹음
- 어떤 플랜인지 궁금함. Pro라면 그럴 수도 있다고 보지만, Max 플랜에서 그 정도면 조금 놀랄 것 같음
- Claude 구독을 쓰는 건지 궁금함. 내가 아는 한 구독형 Claude는 그렇게 동작하지 않음
제목은 4.7에서 4.6으로가 아니라, 4.6 to 4.7이 맞아 보인다고 느낌
- 전적으로 동의함
- 왼쪽에서 오른쪽으로 읽는 사람 기준으로도 Opus 4.6 to 4.7이 훨씬 자연스러워 보임
Artificial Analysis 설명에 따르면, Opus 4.7은 Adaptive Reasoning, Max Effort 기준으로 Intelligence Index를 돌리는 데 약 4,406달러가 들었고, 이는 4.6의 약 4,970달러보다 약 11% 저렴했음. 점수는 4점 더 높았고, 이런 차이는 새 tokenizer를 감안하고도 출력 토큰 사용량이 줄어든 덕분이라고 함. 다만 cached input 할인은 아직 이 계산에 반영되지 않았고, 곧 비용 계산에 포함할 예정이라고 밝힘
내 인상으로는 대화 품질이 예상외로 더 좋아졌음. 더 자기비판적이고, 제안도 늘 비판적으로 검토하며, 기본 선택도 대체로 더 낫게 느껴짐. 여기 있는 다른 사람들만큼 각종 harness를 많이 써본 건 아니라 차이가 덜 두드러질 수도 있겠지만, 준비가 덜 된 사용자일수록 오히려 가치가 더 커질 것 같음. 최근 리뷰 흐름을 되짚거나 제품 논의를 살피는 정도의 기본 작업만 해봐도, 4.6은 유용하지만 자칫 foot-gun이 되기 쉬웠던 반면, 4.7은 팀의 시니어 멤버처럼 행동할 가능성이 더 높아 보임