Tokenmaxxing은 죽었다, Tokenmaxxing 만세

(12gramsofcarbon.com)

3P by GN⁺ 17시간전 | ★ favorite | 댓글 1개

기업의 AI 도입 초기에 토큰 사용량을 성과 평가와 연결한 tokenmaxxing은 무의미한 비용을 만들었지만, AI 도구 사용을 조직에 강제로 퍼뜨리는 역할도 했음
Meta에서는 개인별 토큰 사용량이 평가와 연결되자, 토큰 수치를 올리기 위해 두 에이전트를 하루 종일 대화시키는 식의 형식적 사용까지 나타남
과거 장시간 에이전트 실행은 작은 오류가 쌓이는 누적 오류(compounding error) 때문에 위험했지만, 최근에는 더 많은 토큰이 더 나은 결과를 만드는 누적 정확성(compounding correctness) 흐름이 부상함
보안 분야에서는 Mythos 같은 모델에 큰 토큰 예산을 투입해 취약점을 찾는 방식이 등장했고, 방어자가 공격자보다 더 많은 계산을 써야 하는 구조가 만들어지고 있음
앞으로는 비싼 최상위 모델에 무제한 지출하기보다, 저렴한 오픈 모델을 루프로 더 많이 돌리는 방식이 tokenmaxxing의 실용적 중심이 될 수 있음

무의미한 토큰 소모로 시작된 tokenmaxxing

tokenmaxxing은 임원이 직원들에게 많은 토큰을 쓰도록 유도하면서, 실제 가치가 낮은 작업에도 토큰이 소모되는 현상을 가리킴
대표 사례로 Meta는 성과 평가를 개인별 토큰 사용량과 연결했다는 비판을 받음
- 한 Meta 직원은 토큰 수치를 올리기 위해 두 에이전트를 하루 종일 서로 대화하게 했다고 전함
겉으로는 경영진이 수익 없이 비용만 태우는 것처럼 보였지만, AI 도구 사용을 강제로 확산하려는 정책으로도 볼 수 있음
몇 달 전만 해도 조직 안에는 AI 도구 사용을 강하게 거부하는 시니어 인력이 많았고, 설득에 성공해도 도구를 이상하거나 나쁜 결과가 나오기 쉬운 방식으로 쓰는 일이 있었음
이런 상황에서 위에서 내려오는 토큰 사용 압박은 벽을 뚫기 위한 둔탁한 강제 수단으로 작동함

비용 압박으로 끝난 첫 번째 무제한 사용 정책

tokenmaxxing 정책은 일정 부분 효과를 냈고, 지금은 거의 모든 팀이 최소한 조금은 AI로 코딩하는 상태가 됨
많은 팀은 아직 Ramp Inspect나 Stripe Minions 같은 자체 시스템을 만들지는 못했지만, 기본적으로 Cursor를 사이드바에서 쓰는 수준에는 도달함
토큰 사용량이 크게 늘어난 가운데 OpenAI와 Anthropic은 상장을 추진하는 상황에서 구독 제공량을 제한하고 API 가격을 올림
토큰 보조금도 줄어들면서, 무제한 토큰 사용 정책을 되돌리는 팀이 생김
기존 의미의 무제한 tokenmaxxing은 비용 검토를 버티기 어려운 단계에 가까워짐

누적 오류에서 누적 정확성으로

AI 도구의 기대는 사람이 계속 감독하지 않아도 어렵고 지루한 작업을 처리하게 하는 데 있음
- 대규모 코드 마이그레이션
- 매일 아침 경쟁사 조사
- 인바운드와 아웃바운드 흐름 처리
과거에는 AI를 오래 실행할수록 모델의 작은 오류와 환각이 프로젝트 안에 쌓여 되돌리기 어려워졌음
이 현상은 누적 오류(compounding error) 로 불렸고, 사람의 감독이 많이 필요했기 때문에 에이전트를 24시간 돌릴 이유도 적었음
지금은 더 많은 토큰을 쓰면 정답 가능성이 높아지는 누적 정확성(compounding correctness) 환경으로 바뀌고 있음
토큰 지출이 결과 품질과 연결된다면, 다시 토큰을 많이 쓰려는 인센티브가 생김

보안 분야에서 먼저 보이는 토큰 예산 경쟁

사이버 보안에서는 이미 토큰 지출이 성과와 직접 연결되는 사례가 나타남
Cybersecurity is Proof of Work Now는 Anthropic의 Mythos를 예로 들며, 시스템을 강화하려면 공격자가 악용에 쓰는 것보다 더 많은 토큰을 취약점 발견에 써야 한다고 봄
AISI는 Mythos 시도 1회당 100M 토큰을 예산으로 잡았고, 이는 시도당 $12,500, 10회 실행에 $125,000 규모임
100M 토큰 예산을 받은 모델들은 수익 체감 징후를 보이지 않았고, AISI는 테스트된 토큰 예산 범위에서 모델들이 예산이 늘수록 계속 진전했다고 밝힘
이 구조에서는 영리함보다 계산 작업량과 지불 가능한 토큰 예산이 더 중요해짐

루프와 장시간 에이전트 실행

Boris Cherny가 Claude Code 무대에서 말한 loops에 대한 관심도 같은 흐름과 연결됨
loops의 기본 구조는 에이전트가 자기 턴을 끝낼 때까지 실행한 뒤, 끝나면 같은 프롬프트를 다시 시작하는 방식임
무거운 명세를 자동으로 나누고, 에이전트가 시간이 지나며 부분별로 해결하게 만들 수 있음
이 개념은 새로운 것은 아니며, 지난해 7월부터 있었고 한때 “Ralph Wiggum loop”라고 불림
예전에는 프롬프트 설계와 에이전트 동작에 대한 깊은 이해가 필요했지만, 누적 정확성 덕분에 반복할수록 더 나아지는 근사적 결과를 기대하기 쉬워짐

오픈 모델이 만드는 비용 대비 반복 실행

장기적으로 tokenmaxxing의 승자는 오픈 모델 플랫폼일 수 있음
최상위 연구소 모델에 토큰을 대량 지출하는 방식은 CFO 검토를 통과하기 어려움
오픈 모델이 좋아질수록, 저렴한 모델을 루프 안에서 더 많이 돌리는 방식이 매력적이 됨
예를 들어 Claude가 반복당 1.1배 개선을 주고 GLM 5.2가 1.05배 개선을 주지만 비용이 약 5분의 1이라면, GLM 5.2 루프를 5배 더 돌리는 편이 더 나을 수 있음
“Other things” 섹션에서도 GLM 5.2는 최첨단은 아니지만 frontier 모델보다 훨씬 저렴하다고 평가됨
- GLM 5.2: 입력 100만 토큰당 약 $1.4, 출력 100만 토큰당 약 $4
- Opus 4.X 시리즈: 입력 100만 토큰당 $5, 출력 100만 토큰당 $25
- Haiku 4.5: 입력 100만 토큰당 $1, 출력 100만 토큰당 $5
- GLM 5.2는 Haiku보다 강하고, 일부 벤치마크에서는 GPT 5.5보다 강한 경우도 있다고 함

개발자용 지출과 파이프라인용 지출의 차이

tokenmaxxing에는 서로 다른 두 형태가 있음
첫 번째는 개발자용 토큰 지출임
- 개발자가 Claude Code 같은 도구를 쓰고 loops를 실행하며 많은 토큰을 소비함
- 엔지니어 생산성을 높인다면 좋은 지출이 될 수 있음
두 번째는 파이프라인용 토큰 지출임
- 개발자는 여전히 손으로 코드를 쓰고, 그 코드로 특정 작업을 위한 일회성 에이전트를 만듦
- 이 에이전트들은 비결정적이고 취약한 방식으로 동작하면서 많은 토큰을 소비함
- 파이프라인이 실제로 작동할 때만 좋은 지출이지만, 그런 에이전트들은 결정적 파이프라인만큼 정확하지 않았음
환각 비용을 줄이려 품질 확인 에이전트를 추가하고, 그 확인 에이전트의 오류를 잡기 위해 또 다른 에이전트를 붙이면 토큰 비용이 3배가 됨
일회성 파이프라인형 도구는 특정 작업용 에이전트보다, 특정 작업에 맞춘 외피를 씌운 범용 플랫폼으로 처리되는 흐름이 커지고 있음

소프트웨어 팩토리와 극단적 토큰 지출

자연스러운 종착점은 소프트웨어 팩토리, 더 나아가 다크 팩토리임
이 구조에서는 코드베이스가 사람의 감독 없이 코드를 만들고, 리뷰하고, 버그를 고치고, 테스트를 작성함
사람은 명세를 넣고 애플리케이션을 받는 역할만 맡음
StrongDM의 소프트웨어 팩토리는 이 방향을 극단까지 밀고 나간 사례로 언급됨
StrongDM 쪽은 엔지니어가 하루 $1000의 토큰을 쓰는 것을 목표로 해야 한다고 주장했지만, 이는 과장과 홍보 성격이 강하다고 평가됨
자체 소프트웨어 팩토리는 월 $600 정도를 쓴다고 하며, 지금 엔지니어 1명당 시니어 Google 엔지니어 수준의 비용을 토큰에 쓰는 것은 과하다고 봄
다만 토큰에 큰돈을 쓰려는 인센티브는 잠재적으로 존재하며, 아직 확산을 기다리는 상태임

GN⁺ 17시간전 [-]

Hacker News 의견들

Tokenmaxxing은 직원들이 AI를 의미 있게 활용하도록 강제로 전환시키는 방법이었을 뿐임
토큰 지출로 성과를 측정하던 회사들은 이제 그 강도를 낮출 수 있음. 직원들은 이전엔 AI를 쓰지 않았을 일에도 써보면서 무엇이 가능하고 불가능한지 배웠음
누구도 토큰 지출을 영원히 성과 기준으로 삼고 무제한 예산을 줄 만큼 어리석지는 않음. 애초에 새 환경으로 직원을 옮기기 위한 임시 조치였다고 봄
경영진은 직원들이 AI를 충분히 빨리 활용하지 않는다고 느꼈고, 그래서 2025년에 CEO들이 AI를 쓰지 않으면 해고하겠다고 압박한다는 주류 기사도 많았음. Tokenmaxxing은 그 반대편 극단이었고, 회사들은 결국 균형점에 도달할 것임
너무 깊게 생각할 필요 없음
덧붙여, 어떤 답글은 경영진이 왜 이런 조치를 해야 했는지 보여주는 예로 이 X 글을 들었음. 수백/수천/수만 명 규모의 회사를 바꾸는 건 어렵고, 한 번에 단순한 메시지 하나씩 보내야 함. https://x.com/danluu/status/1487228574608211969?lang=en
- Tokenmaxxing이 의도적이고 신중한 접근이었다는 암시는 너무 웃김
  실제로는 LLM의 단점을 이해하기엔 가치 창출 현장에서 너무 멀리 떨어진, 과하게 보상받는 관리자 계층이 맹목적으로 유행을 따라간 것에 가까워 보임
- Tokenmaxxing 광풍 동안 VP와 최고위 임원들이 하던 논리를 들어보면, “직원들이 AI를 의미 있게 활용하게 만들기 위한 의도적 조치”였다는 해석은 너무 후하게 봐준 것 같음
  대부분 회사는 잘해야 “남들이 하니까 우리도 한다”에 집중했고, 나쁘게는 “개발자 Joe가 팀 전체만큼 생산적일 수 있는지 보고 나머지를 해고하자”에 가까웠음
  실제로 많은 회사가 “토큰 지출이 낮아 성과가 부족하다”는 이유로 직원을 대거 해고하기도 했음
- 이건 인간이 해줄 수 있는 가장 호의적인 설명에 가까움
  이 특정한 경영진의 어리석음 사례에는 그냥 그대로 해당될 수도 있지만, 더 일반적으로 보면 참 아름다운 글쓰기임
  CEO는커녕 어떤 인간에게라도 이 정도로 빗나간 믿음을 가질 수 있으면 좋겠음
- 예전에 HN에서 본 이야기가 떠오름. 조직이 클수록 모두에게 닿으려면 메시지와 도구가 단순해야 한다는 내용이었음
  당시 주니어였던 사람이 자기 회사에서 A/B 테스트에 “Tokenmaxxing” 같은 제도를 도입했다고 했음. 테스트를 많이 할수록 성과 평가에 유리한 방식이었고, 그땐 멍청하다고 생각했지만 결과적으로 모두가 실험이 무엇이고 어떻게 돌리는지 익숙해지는 효과는 냈음
- 내부 승진한 관리자가 있는 작은 팀이라면 실제로 이런 의도가 있었을 수도 있음
  하지만 대기업 관리자는 VP에게서 AI를 해야 한다는 압박을 받고, VP는 임원진에게서 압박을 받았을 가능성이 훨씬 큼. 임원진은 비용을 줄이면서 회사를 무한히 확장해줄 그럴듯한 마법 같은 AI 전략을 내놓으라는 압박을 받았을 것임
  그런 환경에서는 Gartner 차트를 복붙하고 컨퍼런스에서 주워들은 유행어를 섞은 뒤, 어딘가의 누군가가 언젠가 그것을 전진처럼 보이는 무언가로 바꿔주길 바라는 쪽이 더 그럴듯함
“이제는 다르다, 에이전트가 오류가 아니라 성공을 누적한다”는 말을 적어도 1년은 들었지만, 아직 그렇게 보이지 않음
그런 말을 하는 사람들에게서 운 좋게 1인당 5만 달러짜리 1주일 AI 교육을 받았는데, 그나마 도움이 된 구체적 추천 중 하나가 일이 엇나가지 않게 맥락을 계속 자주 비우라는 것이었음
다만 보안 취약점 찾기에서는 이게 상관없을 수 있음. Tokenmaxxing은 그 용도에는 확실히 효과적임. 업계는 지금 매우 비싸고 복잡한 지속적 퍼징을 도입하는 중임
- 최신 최전선 모델조차도 실수를 지우기 위한 세심한 맥락 가지치기, 유지, 재작성에서 엄청난 이득을 보는데, 이를 중심에 둔 도구가 없다는 게 놀라움
  예전에 그런 기능이 있던 도구인 Zed와 나중에 이름 붙은 Text Threads도 이제 그 기능을 제거했음
- 1인당 5만 달러짜리 1주일 AI 교육이라니, 믿기 힘든 사기성 장사처럼 들림
  도대체 누구였길래 그런 투자가 가치 있다고 누군가 생각할 수 있었는지 궁금함
“진지한 기업 리더, 예를 들어 Mark Zuckerberg 같은 사람이 Meta가 돈을 태우겠다고 발표한다고 상상해보라”는 말은, 이를테면 메타버스 전환을 선언하고 진지함을 보여주려고 회사 이름까지 바꾼 일과 비슷함
“더 많은 토큰을 쓰면 일반적으로 더 좋은 결과가 나온다. 우리는 이를 ‘정확성의 복리’라고 부른다”는 부분이 이상함
정말 그런 국면에 들어섰나? 토큰을 더 많이 쓸수록 보통 더 나은 결과가 나온다는 게 일반적으로 맞나? 이 견해가 너무 이상해서 글쓴이가 Tokenmaxxing에서 금전적 이익을 얻는 게 아닌가 싶음
- NVDA 지분을 꽤 갖고 있을지도 모름
이건 지옥 같음. 지옥이 영원히 정비가 엉망인 불편한 롤러코스터에 갇혀 있는 곳이라면 딱 이 느낌임
글 내용에 더 맞는 제목은 “Tokenmaxxing의 죽음이라는 보도는 크게 과장됐다”였을 것 같음
개인적으로 “x는 죽었다, x 만세” 같은 말이 안 되는 제목 관용구 사용을 싫어함
- “x 만세”는 실제로 적절한 제목을 고민하지 않아도 관심을 끌 수 있게 해주는 게으른 밈임
- 그 제목이 더 낫다! 부제목으로 추가했음
여기서 말하는 루프가 뭘 뜻함? 원하는 결과가 나올 때까지 같은 프롬프트를 반복한다는 건가? 반복 결과들이 서로 너무 비슷하지 않나?
- 이제 프롬프트 “엔지니어링”처럼 루프 “엔지니어링”도 생긴 모양임
  https://github.com/topics/loop-engineering
- 꼭 원하는 결과가 나올 때까지는 아니고, LLM 자신이 주어진 기준에 따라 “완료”라고 판단할 때까지 반복하는 것에 가까움
  그 기준은 종종 갱신된 할 일 목록일 뿐임. 이런 극도로 단순한 “하네스” 중 하나는 그 결과로 생기는 머리 비운 듯하지만 끈질긴 Tokenmaxxing을 빗대려고 Ralph Wiggum Loop[1]라고까지 불렸음
  [1] https://awesomeclaude.ai/ralph-wiggum
이런 일은 대형 기술 도입 초기 몇 년 동안 대부분 반복되는 것 같음
2010년대 초 빅데이터 붐 때도 임원들이 명확한 분석 활용 사례나 거버넌스도 없이 Spark 클러스터와 데이터 레이크부터 사들였음
“기업 리더가 기분 좋으려고 돈을 태우겠다고 말하는 건 거의 들어본 적이 없다”니, 정말인가?
약 4년 전 우리 CEO는 팀 빌딩 연습을 하겠다며 컨설턴트를 여러 번 비행기로 불러왔음. 우리는 3년 주기 서버 교체도 감당 못 하지만, 그 컨설턴트 비용은 문제없이 냈음
최근에는 브랜딩 컨설턴트도 불렀고, 사진을 모두 리브랜딩하느라 AWS 비용으로 수천 달러를 썼음. 우리는 포획 시장에서 운영함. 우리 시장에서 영업하려면 우리 서비스 구독이 필수이고, 그 시장 밖이면 구독할 수도 없음. 결국 브랜딩은 매출을 0만큼 늘림
예전에 함께 일하던 회사에서 새 CTO가 오자마자 한 첫 일 중 하나도 서버 이름 변경 규칙이었음. 미국 중심 직원들에게는 낯선 전 세계 도시 이름을 쓰는 방식이었고, 데이터베이스 서버는 스위스 도시, 웹 서버는 덴마크, 스토리지는 핀란드 식이었음. 소 떼처럼 다루던 이름에서 반려동물 이름으로 바뀌었고, 그 CTO는 약 6개월 버텼음
내 경험상 회사 리더십은 이 글이 생각하는 것만큼 검소하지 않음
- 회사에 대해 순진한 사람이 많은 것도 놀라움. “자본주의는 효율적”이라는 격언을 완전히 믿어버린 것처럼 보임
  기업 환경에서 일하면서 이런 낭비의 명백한 예를 한 번도 못 봤다는 게 상상하기 어려움. 과하게 보상받는 컨설턴트와 반드시 써야 하는 예산은 전형적인 사례임
  영화 Office Space는 27년 전에 나왔고, 경영진에게 사람을 해고하라고 말하는 것뿐인 과잉 보수 “효율 컨설턴트”를 조롱하는 줄거리가 있음
- 공평하게 말하면 리더들은 보통 그렇게 직접 말하지는 않음. “기분이 좋아서 돈을 태우겠다”는 뜻의 아무 말 대잔치를 할 뿐임
  더 정확히는 “이게 내 경력에 도움이 되니까”에 가까움

답변달기

Tokenmaxxing은 죽었다, Tokenmaxxing 만세

무의미한 토큰 소모로 시작된 tokenmaxxing

비용 압박으로 끝난 첫 번째 무제한 사용 정책

누적 오류에서 누적 정확성으로

보안 분야에서 먼저 보이는 토큰 예산 경쟁

루프와 장시간 에이전트 실행

오픈 모델이 만드는 비용 대비 반복 실행

개발자용 지출과 파이프라인용 지출의 차이

소프트웨어 팩토리와 극단적 토큰 지출

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들