3P by brainer 4시간전 | ★ favorite | 댓글 33개

몇달전부터 한국 개발 바닥을 보다보면 "토큰 사용량이 곧 실력이다"와 같은 이상한 주장들이 돌아다니더군요.
그러면서 잘 만든 PRD 하나면 AI가 모두 해결한다는 막무가네씩 주장을 하고요.

처음에는 그냥 커뮤니티에 흔히있는 호들갑인줄 알았는데 그런 주장들이 마치 진실인냥 계속 나오는걸 보고는 잠깐은 제가 뒤쳐졌나 생각도 했었죠.
(Oh-my-OpenCode 같은걸 보고선 더더욱이요.)

하지만 막상 찾아봐도 제대로된 예시 하나 찾기 어려웠고, 재현은 사실상 불가능했죠.

미국 frontier 커뮤니티에서는 그런 주장이 전혀 없었고, 그러다가 OpenClaw가 나오고 흥행하며 OpenAI가 창시자를 바로 스카웃 해가는걸 보고 더 확신에 가득찼습니다.
(OpenClaw의 주요 철학이 HITL(Human In The Loop)인걸 보고요.)

아, 내가 뒤처진게 아니라 한국 커뮤니티의 종교스러운 과장과 허상이 돌아다니는구나를요.)

어제 OpenClaw 창시자도

코드를 만들고 밤새 실행할 수는 있지만, 그 결과는 결국 최고의 쓰레기가 됩니다.
라고 하고,

YC CEO Garry Tan도 100% 공감한다고하죠.

https://x.com/garrytan/status/2043738478220062813?s=20

지난 몇달간 이런 허상의 주장이 저에게 직간접적으로 피해가 오는 상황을 보고 이제는 더 이상 참기가 어렵네요.

그런 주장을 하는 사람들은 타도했으면 좋겠어요.

저는 Codex를 5년전부터 쓰는 AI 굉장히 낙관적인 사람입니다.

언젠가 저런 완전 자동화도 될거라고 생각합니다. 세간의 이야기처럼 내년 일 수도 있다고 생각해요.

하지만, 적어도 오늘은 아닙니다.

이 글은 일부러 이렇게 작성하신 건가 싶은 생각이 드네요.
그런데 이런 부분도 있습니다.
3년 전 저희가 모두 이야기 했던 부분이, AI 비용은 결국 저렴해질 것이다 였어요.
그런데 아니었습니다. 더 비싸지고 있습니다. 심지어 중국 AI 모델도 마찬가지입니다.
그래서 최근에 여러 티어의 모델을 하나의 작업에서 교체하여 사용함으로써 비용 절감을 유도해보는 방법, 아예 오픈 소스 특히 gemma 4(reasoning trace 가 훨씬 짧음) 등을 로컬에서 돌려 에이전트에 활용하는 방법 등이 화제를 모으기 시작했어요. 이건 처음에는 모두가 반대했던 이야기였지만 지금은 대단히 합리적으로 보이면서 관련된 많은 움직임이 나타나고 있습니다. 마찬가지로 AI 는 지금 정답이 없는 싸움 하지만 결국 승자가 많은 것을 얻을 것이다라는 확신의 산업으로 이어지고 있습니다.

결론은 저는 그런 의미인 것 같습니다.

노이즈, 이건 AI 프론티어 기업의 홍보 활동에서도 아주 크게 나타납니다. 그러면 이 기업들이 잘못했기 때문에 사용하지 않을 것인가요? 아니요, 분명히 AI를 사용할 것입니다. 다만 노이즈에 대한 정보를 가려들으면 됩니다. 불만에 차면 더욱 그렇습니다.

불필요한 액션, 이건 투자에서도 마찬가지인데요. 투자에서 성과를 거둔 사람들은 실패를 이미 맛본 사람일 확률이 높습니다. 나는 '절대' 손실을 보지 않을거야 라는 마인드에서는 애초에 투자 시작을 하기도 어렵고, 하락장일 때 투자를 안한 것에 대한 안도감, 투자를 한 사람들에 대한 연민만 느끼고, 실제 상승장에서는 좌절감만 느낄 것입니다. 마찬가지로 결국 AI도 계속 지켜 보고 사용해보고 여러 가지 시도해 본 사람이 유리합니다. 저는 이걸 비개발자 분들에게서 더 크게 느끼는데요. 개발 지식이 없었지만 계속해서 활용해보고, 탐구하면서 개발 지식을 학습하고, 더 나은 소프트웨어를 만들어내시는 여러 분들이 있습니다. 이렇게 '열의'가 있는 사람은 생각보다 이기기 어렵습니다. 저도 이걸 정말 많이 느끼고, 매 순간 제 열의가 사라지지 않도록 노력하는 것 같습니다.

결론은 ralph 도 허상의 개념은 아니고 일종의 industrial engineering 의 개념, test-time computing 측면에서의 advantage 라는 것이 증명된 방식입니다. 물론 허상이라고 이야기할 수도 있지만 그럼에도 관심을 갖고 재현해보려던 그 경험은 큰 자산이 되실 것이라고 생각합니다.

노이즈를 가려들으면 되는건 맞는데 "불편하면 자세를 고쳐앉아라" 식의 이야기는 조심해야 한다고 생각합니다. 불만을 제시하는 것 까지 문제삼으며 "부적응자처럼 굴지말고 빠르게 적응해서 승리자가 되어라"는 식의 메세지가, 지금과 같은 맹목적인 결과주의로 이어진다고 봅니다. 물론 이런 것을 의도한 말씀은 아닐 것 같습니다.

그리고 ralph 같은 looping이던, 아니면 여러 모델한테 번갈아 물어보는 ensemble 방식이던, subagent orchestration 이던, 이런 test-time computing 방법들의 이점이 증명된건 아닙니다. 애초에 지금 llm들은 people pleasing behavior를 주입받았기 때문에, 이런 과정에서 튀어나오는 결과를 잘 살펴보면 실제로 고칠만한걸 고치기보단, 고치라고 했으니까 없는 문제를 만들어서 고쳐내는 경우도 많거든요.

빠른 경험이 가장 큰 자산이 된다가 지금 시대를 관통하는 말임에는 동감하지만, 이것을 사익을 위한 도구로 활용을 넘어 악용하는건 비판받아 마땅하다고 봅니다. 원 글의 주제도 "[무조건 빨리 많이, 누구보다 먼저]가 성공적인 AI 기반 개발 시나리오인것 마냥 과대 포장하는게 싫다"인 것 같구요.

제가 작성자 님의 댓글을 이제 확인했습니다.
댓글 업데이트가 잘 안되었네요.
좋은 의견 감사드립니다.

일단 제 의견도 말씀드리고자 합니다.

불만(저는 불만이라고 생각하지 않습니다)을 제시한 것에 대해 문제를 삼는다기 보다는 저 또한 이런 현상에 의견을 제기한 것으로 생각해주시면 좋을 것 같습니다. 모두가 만족하는 상황을 만드는 것은 불가능하기 때문에 원글의 작성자님, 댓글 작성자님의 의견 또한 존중합니다. 다만 저의 의견 또한 존중받아야 하지 않을까 라는 생각이 있습니다.

test-time computing 은 저의 의견으로는 이미 연구로 증명된 사례라고 생각합니다. 다만 ensemble 방식은 test-time computing 의 개념보다는 context window size 의 한계를 피하는 방식으로 판단하고 있습니다. '고칠만한걸 고치기보단, 고치라고 했으니까 없는 문제를 만들어서 고쳐내는 경우도 많거든요.' 이 부분에 대한 문제는 분명히 발생하고 있어서, 이걸 harness 로 최대한 차단하자는 것이 현재의 최선 같습니다.

그리고 마지막으로 '바이럴' 이라는 것에 대해 저도 상당한 노이즈가 있고, 싫어할 사람이 많다는 것에 동감합니다. 다만 하네스를 만드는 친구들이 사실 오픈 소스로 뿌린 친구들이라 사익으로 할 만한 것이 있는지, 심지어 싫어하는 사람들도 만드는데 무료로 제공하면서 욕도 먹고 있을 이 상황에 사익이라 할 만한 것이 있는지에 대해서는 의구심이 있습니다. 물론 공포심을 조장해서 판매를 한다면 이건 잘못된 행동이며 비판 받을 수 있는 행동이라는 점에 공감합니다.

다시 한 번 작성자 님의 의견 감사드립니다!

3년전보다 실제로 훨씬 저렴해졌죠
GPT-4 시절에는 유료를 쓰더라도 바로 몇시간뒤에 다시하라는 메시지를 받았지만, 지금은 22달러짜리 요금을 써도 그런일은 없어요.

단위 토큰당 지적 능력은 비교하기 어려운 수준으로 올라왔고요.

하지만 중요한건 그것보다도 더 많은 토큰을 사용하면서 더 많은 돈을 LLM 제공자한테 주고있는거죠(제번스의 역설)

Ralph Loop을 안 써본게 아니에요.
그것보다도 더 나은 sub-agent driven development도 써봤고요.
하지만 제 경험도 결국 결론은 OpenClaw 창시자가 한 말대로였어요.

진짜 완전 자동화가 되면 Ralph Loop 같은것도 어거지도 필요없겠지요.

가장 중요한건 실제로 제대로된 코드도, 서비스도 만들어내지 못한다는점이에요.

작성자 님의 의견에 공감하는 바가 있습니다.
단위 토큰당 지적 능력, GPT-4 와 비교한 가격 등에 대해서 공감합니다.

다만 토큰 가격이 하락세였다가 다시 올라가고 있고, 추론 토큰, 작업당 토큰 사용량, 개인별 토큰 사용량에 비추어 보면 이 영향은 개인 사용자, AI 서비스 운영자 측면에서 상당히 힘들어지고 있습니다. 이게 Cursor, Intercom, Shopify, Chroma 등에서 오픈 소스 기반 자체 모델을 만들기 시작한 이유입니다. 가격 경쟁력을 아예 못 갖출 정도가 되어버린 것이죠.

사실 ralph 라는 것이 어거지라기 보다는 while 기반 bash script 였습니다. 그만큼 단순한 구조이고요. 여기서 저희가 이해해야 하는 건 시스템화 할 수 있냐의 싸움인 것 같습니다. 자동화라는 것도 intent 를 정확하게 추출하고 task splition 을 게으르게 하지 않고 정확하게 하고, 이를 정확하게 수행해서 에러 없이 완벽하게 구현이 되는지 안되면 어떤 부분을 수행해야 하는지를 하는 과정이고.

다만 공감하는 부분은 저 모든 작업들이 일명 '딸깍' 으로 되면 좋겠지만 하시면서 아마 느끼셨을 부분은 전혀 그렇지 않다는 것이고, 오히려 코드 작업보다 더 많은 세팅을 해야만 하는 느낌을 주는 것이 현재의 문제인 것 같아 보입니다. 그리고 서비스도 일반적으로 체감할 것이 없다는 것이고요.

다만 제가 확실하게 느끼는 부분은 대부분의 사람이 documentation 을 그렇게 잘하지 못합니다. 정리를 잘 못하기 때문에 무언가 시스템하게 만드는 것을 하기 어렵고, 그래서 이런 류의 작업을 진행하는데 상당히 힘들어하는 것을 많이 목격했습니다. 그리고 AI가 완벽하지도 않습니다. 그런 점에서 저는 기회로 느껴집니다. 이 작업을 지속했던 사람들과 아닌 사람들 간에는 꽤 많은 차이를 만들 것이라고 생각합니다. 내성이 있는 사람들은 적응을 빠르게 하고, 여러 사정에 의해 그렇지 못했던 사람들은 또 늦어져서 공포감에 질릴 것 같습니다. 사실 작성자 분의 말씀처럼 이건 '공포감'을 가질 일이 아닌데? 하는 것이 더 좋은 방향성인거죠.

제 이야기는 while loop이 어거지라는 의미입니다.
애당초 저게 나온 이유가 LLM이 agentic task에 능하지 않아 조기에 종료(EOS token 반환)했기 때문에 벌어진일이죠.
정말 궁극의 AGI에 준하는 모델이 나온다면 while loop을 쓸 일도 없겠죠.

저의 documentation 능력은 부족할 수 있지만 Garry Tan이나 Peter Steinberger는 그렇지 않을거고요.
만약 그게 LLM이 제대로 작동하지 않는 문제라면 정말 재현 가능할만한 best practice demo를 보여주시면 됩니다.
하지만 저는 그런걸 단 한번도 본적이 없어요.

좋은 의견 감사드립니다.
그렇다면 혹시 어떤 best practice demo 가 필요한 것일까요?
어떤 작업이 어떻게 구현될 때 Ralph loop 가 허상인가 아닌가를 판단할 수 있을지 고견을 여쭈어봅니다.

완벽에 가까운 PRD 하나로 Ralph Loop을 돌려서 Production-ready 수준으로 개발을 완료하는것이죠
누가봐도 AI Sloop 같이 않게 보이게요

아, 그러면 완벽에 가까운 prd 하나로 Ralph Loop 를 돌려서 어느 정도의 제품을 만들면 될까요?
채널톡의 ai 채팅을 만들면 될까요?

그리고 하나 더 여쭈어보고 싶습니다.
혹시 하네스라는 것을 세팅해서 진행해도 될지 궁금합니다.

넵, 하네스건 multi-agent건 sub-agent건 상관없습니다.

의견 감사합니다!
그러게요. 이런 사례를 만들면 좋겠네요 ㅎㅎ

oh-my-whatever를 비롯한 토큰 리더보드 등등의 것들은 전부 마케팅을 위한 노이즈라고 생각합니다.

하네스를 만들어서 뭔가 쓸모있는게 나오기보다, 그냥 더 복잡하고 토큰 태우기에 최적화된 하네스가 나오는 비율이 높은데, 그게 제일 가시성이 높고 단기적으로 주목받기 좋으니까 거기에 열광하는 사람도 많은것 같아요.

이런 것에 적응 못하는게 딱 loser 마인드라 하는 사람도 있더군요. 이걸 가지고 한국이 빠르고 SF가 느리다는 주장도 있고.

다만 랄프루프니 하네스니 뭐니 하는것들은 전부 결국엔 모델의 내부 기능으로 흡수될거고 그때가 되면 잘 만든 PRD 하나로 AI가 해결해주는게 호들갑은 아닐거라고 생각합니다.

대신 지금 당장 하네스 온몸 비틀기로 뭔가 대단한걸 하는 양 포장하고 우려먹는건 그냥 number go up 하는클릭커 게임 중독자랑 크게 다를게 없다고 봐요.

https://x.com/WillManidis/status/2021655191901155534 좀 됐는데 이 글이 비슷한 맥락이었습니다.

전적으로 공감합니다
개인적으로는 그냥 한국에서 유사 인플루언서가 되고싶은 사람들이라고 생각해요.

좋은 글 공유 감사합니다
AI 코딩, HITL도 중독성은 있죠.

이런걸 보면 확실히 사람이 뭔가를 만드는걸 좋아하는 본능 같은게 있나봐요

인기가 많다는 건 그만큼 평균치에 가까운거 아닐까요? 높은 수준이 아니라 평범한 수준에서 만족할만한.. 하지만 이게 심해지면 도구 페니쉬 됩니다. 아직도 C 냐 java 냐로 갑론을박 하는 사람들이 있어요.

평균은 사실 랄프루프랑 하네스랑은 많이 멀고, 바닐라 claude code 수준이라고 생각합니다. 솔직히 모집단을 조금 넓게 잡으면 클로드 코드만 써봤어도 평균 이상이라 봐요.

이런 것들이 평균처럼 보인다면 저들의 FOMO 마케팅이 성공적이었다는 뜻이라고 생각합니다.

새로운 연금술사 시대가 도래했다고 봐야 할까요?

codex를 5년 전이요...? ChatGPT도 22년 출시라서 아직 5년이 안됐는데...
혹시 Ask GN 본문도 AI로 작성하셔서 환각이 들어간걸까요?

Codex 자체는 오래됐어요. 저도 Geeknews에서 보고 GPT-3 프리뷰 신청했던 기억이 나네요

혹시 GPT-3 프리뷰와 Codex 가 어떤 관련이 있는지 알 수 있을까요?
당시에 Codex 가 있었다는 말씀이실까요? 아니면 코드를 작성하는 AI 가 있었고 이게 Codex 다 라는 말씀이실까요?

모르는걸 티내기 전에 나무위키라도 한번 뒤져 보는게 어때요?

아, 참고로 ChatGPT Atlas가 제가 가입한지 1812일째라네요.

아하 그러니까 현재의 codex와 당시의 codex는 다른 형태의 제품인거네요
당시의 codex는 openai의 코드 중심 LLM모델명이었던거고
같은 브랜드를 사용해서 현재의 codex 플랫폼을 런칭한거군요

제가 당시에 github copilot을 사용했는데 기반 모델이 GPT-3 이었던 사실까지만 알고
모델명에 codex라는 브랜드를 사용했는줄은 몰랐습니다

Codex가 모델이 아니고요.
GPT-5.3-Codex같은건 최근에서야 명명된거고요.

GPT-3 기반의 코딩용 fine-tune된 모델을 사용 가능한 VSCode 확장 이름입니다.
(web은 아무도 안 씀)
같은 모델과 방식을 Github Copilot에서도 썼고요.

당시에는 의미있는 채팅을 못했으니, 말 그대로 다음 단어 예측과 같았죠.
단지, 백준 문제를 적으면 solve 함수를 짜는 궁극의 자동완성 같았을 뿐이죠.
(Cursor에 있던걸 OpenAI가 먼저했다는 겁니다.)

첨언하자면 codex는 2025년 5월 출시했습니다.

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

결론만 이야기하면 토큰 사용량하고 아무런 관계 없는 것 같습니다.
자동화에 관해서는 개발자들 사이에서는 뿌리 깊은 문화가 있어서 공통적으로 바라보는 직업의 성취 목표 같은 느낌으로 자리하고 있는데요.

이 부분이 밤새워 자동으로 코드를 작성하거나 프로덕트를 만드는데에 환상을 갖게 되는 것 같습니다.

사실 개발자의 시각이 아니라 실제 사업적 효용성이나 사업운영의 입장에서 보면, 성능이나 만듦새, 빠른 대응 보다는 문제를 측정하고 해결책을 찾는게 더 중요하게 판단되는 부분들이 많은 것이 현실인데요...

흔히 좋은 앱을 만들거나 서비스를 잘 만들면 대박난다는 개발자 특유의 환상들이 상황을 왜곡하는 것 같아요.

집안 머리카락을 몇개 집는데에 필요한 건 고성능 청소기 5백종류가 아니라 그냥 내 손가락을 대신해줄 간단한 무언가 하나에요.

토큰 소모는 세션 관리 잘못하거나 SDD 잘못사용하면 간단한 서버 개발에도 2-3일이면 클로드 기준 100불도 잡아먹습니다.
토큰 소모는 잘못 쓰고 있다는 명세가 불명확하기 때문에 잘못된것을 본인 스스로 판단하기도 어렵더군요.

내용이야 어쨌든 토큰 소모량이 AI 활용의 척도로 삼는 것은 밥 많이 먹는다고 능력있다는 이야기와, 회사에서 밤새워 연필로 기존 문서 옮겨적는다고 일을 많이 했다고 말하기 힘든것과 동일한 것 같네요.

지금이야 정확한 척도가 없어서 토큰 소모량과 자동화에 힘쓰지만,
이 다음 단계로 곧 실제적인 가치를 창출하는 방법에 대해서 논의가 시작될것으로 보이네요.

사실 미국이라고 뭐 크게 다른것 같진 않습니다. Oh-my 류 코딩 하네스는 프로젝트 팀이 한국이라 미국을 포함한 외국에 마케팅이 덜되어서 그런것이고, 대표적인 토큰 맥시멀리스트인 스티브 예게나 카파시가 주장하는 것들을 보면 말씀하신것들과 크게 다르지않더라구요. 그 추종자들도요.

사내에서 토큰 사용 리더보드를 만들고 회사별로 경쟁도 하던데 개인적으로는 AI 회사들의 마케팅에 넘어간 거라고 생각합니다.
최근 바이럴되는 것들을 보면 토큰 대비 성능은 전혀 고려하지 않는 것 같더라구요.

웃긴건 AI 회사들은 그런 마케팅을 하지 않아요
오히려 이전 모델들보다 더 적은 reasoning token으로 더 좋은 성능을 낸다고하죠

5년 전...? 혹시 주식 추천 가능할까요