11P by brainer | ★ favorite | 댓글 66개

몇달전부터 한국 개발 바닥을 보다보면 "토큰 사용량이 곧 실력이다"와 같은 이상한 주장들이 돌아다니더군요.
그러면서 잘 만든 PRD 하나면 AI가 모두 해결한다는 막무가네씩 주장을 하고요.

처음에는 그냥 커뮤니티에 흔히있는 호들갑인줄 알았는데 그런 주장들이 마치 진실인냥 계속 나오는걸 보고는 잠깐은 제가 뒤쳐졌나 생각도 했었죠.
(Oh-my-OpenCode 같은걸 보고선 더더욱이요.)

하지만 막상 찾아봐도 제대로된 예시 하나 찾기 어려웠고, 재현은 사실상 불가능했죠.

미국 frontier 커뮤니티에서는 그런 주장이 전혀 없었고, 그러다가 OpenClaw가 나오고 흥행하며 OpenAI가 창시자를 바로 스카웃 해가는걸 보고 더 확신에 가득찼습니다.
(OpenClaw의 주요 철학이 HITL(Human In The Loop)인걸 보고요.)

아, 내가 뒤처진게 아니라 한국 커뮤니티의 종교스러운 과장과 허상이 돌아다니는구나를요.)

어제 OpenClaw 창시자도

코드를 만들고 밤새 실행할 수는 있지만, 그 결과는 결국 최고의 쓰레기가 됩니다.
라고 하고,

YC CEO Garry Tan도 100% 공감한다고하죠.

https://x.com/garrytan/status/2043738478220062813?s=20

지난 몇달간 이런 허상의 주장이 저에게 직간접적으로 피해가 오는 상황을 보고 이제는 더 이상 참기가 어렵네요.

그런 주장을 하는 사람들은 타도했으면 좋겠어요.

저는 Codex를 5년전부터 쓰는 AI 굉장히 낙관적인 사람입니다.

언젠가 저런 완전 자동화도 될거라고 생각합니다. 세간의 이야기처럼 내년 일 수도 있다고 생각해요.

하지만, 적어도 오늘은 아닙니다.

댓글과 토론

그 주장이 진짜라면 anthropic, google, openai에서 기존의 모든 소프트웨어를 대체하고도 남았겠죠

사내에서도 지금 토큰을 많이 써야
실적 좋게 봐주는 이상한 기류가 생겼더라고요
진짜 누구 머리에서 나온건지...

그 집단 글을 볼 때마다 진짜 두드러기가 날 것 같습니다

이 글은 일부러 이렇게 작성하신 건가 싶은 생각이 드네요.
그런데 이런 부분도 있습니다.
3년 전 저희가 모두 이야기 했던 부분이, AI 비용은 결국 저렴해질 것이다 였어요.
그런데 아니었습니다. 더 비싸지고 있습니다. 심지어 중국 AI 모델도 마찬가지입니다.
그래서 최근에 여러 티어의 모델을 하나의 작업에서 교체하여 사용함으로써 비용 절감을 유도해보는 방법, 아예 오픈 소스 특히 gemma 4(reasoning trace 가 훨씬 짧음) 등을 로컬에서 돌려 에이전트에 활용하는 방법 등이 화제를 모으기 시작했어요. 이건 처음에는 모두가 반대했던 이야기였지만 지금은 대단히 합리적으로 보이면서 관련된 많은 움직임이 나타나고 있습니다. 마찬가지로 AI 는 지금 정답이 없는 싸움 하지만 결국 승자가 많은 것을 얻을 것이다라는 확신의 산업으로 이어지고 있습니다.

결론은 저는 그런 의미인 것 같습니다.

노이즈, 이건 AI 프론티어 기업의 홍보 활동에서도 아주 크게 나타납니다. 그러면 이 기업들이 잘못했기 때문에 사용하지 않을 것인가요? 아니요, 분명히 AI를 사용할 것입니다. 다만 노이즈에 대한 정보를 가려들으면 됩니다. 불만에 차면 더욱 그렇습니다.

불필요한 액션, 이건 투자에서도 마찬가지인데요. 투자에서 성과를 거둔 사람들은 실패를 이미 맛본 사람일 확률이 높습니다. 나는 '절대' 손실을 보지 않을거야 라는 마인드에서는 애초에 투자 시작을 하기도 어렵고, 하락장일 때 투자를 안한 것에 대한 안도감, 투자를 한 사람들에 대한 연민만 느끼고, 실제 상승장에서는 좌절감만 느낄 것입니다. 마찬가지로 결국 AI도 계속 지켜 보고 사용해보고 여러 가지 시도해 본 사람이 유리합니다. 저는 이걸 비개발자 분들에게서 더 크게 느끼는데요. 개발 지식이 없었지만 계속해서 활용해보고, 탐구하면서 개발 지식을 학습하고, 더 나은 소프트웨어를 만들어내시는 여러 분들이 있습니다. 이렇게 '열의'가 있는 사람은 생각보다 이기기 어렵습니다. 저도 이걸 정말 많이 느끼고, 매 순간 제 열의가 사라지지 않도록 노력하는 것 같습니다.

결론은 ralph 도 허상의 개념은 아니고 일종의 industrial engineering 의 개념, test-time computing 측면에서의 advantage 라는 것이 증명된 방식입니다. 물론 허상이라고 이야기할 수도 있지만 그럼에도 관심을 갖고 재현해보려던 그 경험은 큰 자산이 되실 것이라고 생각합니다.

노이즈를 가려들으면 되는건 맞는데 "불편하면 자세를 고쳐앉아라" 식의 이야기는 조심해야 한다고 생각합니다. 불만을 제시하는 것 까지 문제삼으며 "부적응자처럼 굴지말고 빠르게 적응해서 승리자가 되어라"는 식의 메세지가, 지금과 같은 맹목적인 결과주의로 이어진다고 봅니다. 물론 이런 것을 의도한 말씀은 아닐 것 같습니다.

그리고 ralph 같은 looping이던, 아니면 여러 모델한테 번갈아 물어보는 ensemble 방식이던, subagent orchestration 이던, 이런 test-time computing 방법들의 이점이 증명된건 아닙니다. 애초에 지금 llm들은 people pleasing behavior를 주입받았기 때문에, 이런 과정에서 튀어나오는 결과를 잘 살펴보면 실제로 고칠만한걸 고치기보단, 고치라고 했으니까 없는 문제를 만들어서 고쳐내는 경우도 많거든요.

빠른 경험이 가장 큰 자산이 된다가 지금 시대를 관통하는 말임에는 동감하지만, 이것을 사익을 위한 도구로 활용을 넘어 악용하는건 비판받아 마땅하다고 봅니다. 원 글의 주제도 "[무조건 빨리 많이, 누구보다 먼저]가 성공적인 AI 기반 개발 시나리오인것 마냥 과대 포장하는게 싫다"인 것 같구요.

제가 작성자 님의 댓글을 이제 확인했습니다.
댓글 업데이트가 잘 안되었네요.
좋은 의견 감사드립니다.

일단 제 의견도 말씀드리고자 합니다.

불만(저는 불만이라고 생각하지 않습니다)을 제시한 것에 대해 문제를 삼는다기 보다는 저 또한 이런 현상에 의견을 제기한 것으로 생각해주시면 좋을 것 같습니다. 모두가 만족하는 상황을 만드는 것은 불가능하기 때문에 원글의 작성자님, 댓글 작성자님의 의견 또한 존중합니다. 다만 저의 의견 또한 존중받아야 하지 않을까 라는 생각이 있습니다.

test-time computing 은 저의 의견으로는 이미 연구로 증명된 사례라고 생각합니다. 다만 ensemble 방식은 test-time computing 의 개념보다는 context window size 의 한계를 피하는 방식으로 판단하고 있습니다. '고칠만한걸 고치기보단, 고치라고 했으니까 없는 문제를 만들어서 고쳐내는 경우도 많거든요.' 이 부분에 대한 문제는 분명히 발생하고 있어서, 이걸 harness 로 최대한 차단하자는 것이 현재의 최선 같습니다.

그리고 마지막으로 '바이럴' 이라는 것에 대해 저도 상당한 노이즈가 있고, 싫어할 사람이 많다는 것에 동감합니다. 다만 하네스를 만드는 친구들이 사실 오픈 소스로 뿌린 친구들이라 사익으로 할 만한 것이 있는지, 심지어 싫어하는 사람들도 만드는데 무료로 제공하면서 욕도 먹고 있을 이 상황에 사익이라 할 만한 것이 있는지에 대해서는 의구심이 있습니다. 물론 공포심을 조장해서 판매를 한다면 이건 잘못된 행동이며 비판 받을 수 있는 행동이라는 점에 공감합니다.

다시 한 번 작성자 님의 의견 감사드립니다!

3년전보다 실제로 훨씬 저렴해졌죠
GPT-4 시절에는 유료를 쓰더라도 바로 몇시간뒤에 다시하라는 메시지를 받았지만, 지금은 22달러짜리 요금을 써도 그런일은 없어요.

단위 토큰당 지적 능력은 비교하기 어려운 수준으로 올라왔고요.

하지만 중요한건 그것보다도 더 많은 토큰을 사용하면서 더 많은 돈을 LLM 제공자한테 주고있는거죠(제번스의 역설)

Ralph Loop을 안 써본게 아니에요.
그것보다도 더 나은 sub-agent driven development도 써봤고요.
하지만 제 경험도 결국 결론은 OpenClaw 창시자가 한 말대로였어요.

진짜 완전 자동화가 되면 Ralph Loop 같은것도 어거지도 필요없겠지요.

가장 중요한건 실제로 제대로된 코드도, 서비스도 만들어내지 못한다는점이에요.

작성자 님의 의견에 공감하는 바가 있습니다.
단위 토큰당 지적 능력, GPT-4 와 비교한 가격 등에 대해서 공감합니다.

다만 토큰 가격이 하락세였다가 다시 올라가고 있고, 추론 토큰, 작업당 토큰 사용량, 개인별 토큰 사용량에 비추어 보면 이 영향은 개인 사용자, AI 서비스 운영자 측면에서 상당히 힘들어지고 있습니다. 이게 Cursor, Intercom, Shopify, Chroma 등에서 오픈 소스 기반 자체 모델을 만들기 시작한 이유입니다. 가격 경쟁력을 아예 못 갖출 정도가 되어버린 것이죠.

사실 ralph 라는 것이 어거지라기 보다는 while 기반 bash script 였습니다. 그만큼 단순한 구조이고요. 여기서 저희가 이해해야 하는 건 시스템화 할 수 있냐의 싸움인 것 같습니다. 자동화라는 것도 intent 를 정확하게 추출하고 task splition 을 게으르게 하지 않고 정확하게 하고, 이를 정확하게 수행해서 에러 없이 완벽하게 구현이 되는지 안되면 어떤 부분을 수행해야 하는지를 하는 과정이고.

다만 공감하는 부분은 저 모든 작업들이 일명 '딸깍' 으로 되면 좋겠지만 하시면서 아마 느끼셨을 부분은 전혀 그렇지 않다는 것이고, 오히려 코드 작업보다 더 많은 세팅을 해야만 하는 느낌을 주는 것이 현재의 문제인 것 같아 보입니다. 그리고 서비스도 일반적으로 체감할 것이 없다는 것이고요.

다만 제가 확실하게 느끼는 부분은 대부분의 사람이 documentation 을 그렇게 잘하지 못합니다. 정리를 잘 못하기 때문에 무언가 시스템하게 만드는 것을 하기 어렵고, 그래서 이런 류의 작업을 진행하는데 상당히 힘들어하는 것을 많이 목격했습니다. 그리고 AI가 완벽하지도 않습니다. 그런 점에서 저는 기회로 느껴집니다. 이 작업을 지속했던 사람들과 아닌 사람들 간에는 꽤 많은 차이를 만들 것이라고 생각합니다. 내성이 있는 사람들은 적응을 빠르게 하고, 여러 사정에 의해 그렇지 못했던 사람들은 또 늦어져서 공포감에 질릴 것 같습니다. 사실 작성자 분의 말씀처럼 이건 '공포감'을 가질 일이 아닌데? 하는 것이 더 좋은 방향성인거죠.

제 이야기는 while loop이 어거지라는 의미입니다.
애당초 저게 나온 이유가 LLM이 agentic task에 능하지 않아 조기에 종료(EOS token 반환)했기 때문에 벌어진일이죠.
정말 궁극의 AGI에 준하는 모델이 나온다면 while loop을 쓸 일도 없겠죠.

저의 documentation 능력은 부족할 수 있지만 Garry Tan이나 Peter Steinberger는 그렇지 않을거고요.
만약 그게 LLM이 제대로 작동하지 않는 문제라면 정말 재현 가능할만한 best practice demo를 보여주시면 됩니다.
하지만 저는 그런걸 단 한번도 본적이 없어요.

저도 작성자분 의견에 공감합니다.
LLM이 채팅이 가능하고 소통이 가능한 시스템이라는 경험적 측면 때문에 왜곡이 발생하는 부분도 있는 것 같습니다.

좋은 의견 감사드립니다.
그렇다면 혹시 어떤 best practice demo 가 필요한 것일까요?
어떤 작업이 어떻게 구현될 때 Ralph loop 가 허상인가 아닌가를 판단할 수 있을지 고견을 여쭈어봅니다.

완벽에 가까운 PRD 하나로 Ralph Loop을 돌려서 Production-ready 수준으로 개발을 완료하는것이죠
누가봐도 AI Sloop 같이 않게 보이게요

아, 그러면 완벽에 가까운 prd 하나로 Ralph Loop 를 돌려서 어느 정도의 제품을 만들면 될까요?
채널톡의 ai 채팅을 만들면 될까요?

그리고 하나 더 여쭈어보고 싶습니다.
혹시 하네스라는 것을 세팅해서 진행해도 될지 궁금합니다.

넵, 하네스건 multi-agent건 sub-agent건 상관없습니다.

의견 감사합니다!
그러게요. 이런 사례를 만들면 좋겠네요 ㅎㅎ

솔직히 이 글은 문제 제기 자체보다도 논지 전개가 더 아쉽게 느껴졌습니다.

“토큰 사용량이 곧 실력이다”, “잘 만든 PRD 하나면 AI가 전부 해결된다” 같은 표현은 굉장히 강한 주장인데, 정작 누가 어디서 어떤 맥락으로 그렇게 말했는지는 잘 보이지 않습니다. 그래서 읽는 입장에서는 실제 흐름을 비판한다기보다, 대표성이 불분명한 극단적 주장 몇 개를 묶어 반박하는 허수아비 논법처럼 보입니다.

특히 om 계열을 포함해서 실제로 툴을 만들고 워크플로를 다듬는 분들이, “PRD 하나면 다 해결된다”는 식으로 말하는 경우는 저는 거의 보지 못했습니다. 오히려 계속 릴리즈와 수정, 검증을 반복하고 있죠. 그 자체가 아직은 사람의 판단과 개입이 필수라는 걸 전제로 한다고 봅니다.

그래서 더 조심해야 하는 건, 이런 식의 서술이 잘못 읽히면 특정 빌더나 개발자들이 실제로 하지도 않은 말을 한 것처럼 보이게 만들 수 있다는 점입니다. 그런 방식은 건강한 비판이라기보다, 과장된 프레임을 세워두고 공격하는 쪽에 더 가깝다고 생각합니다.

토큰 사용량도 마찬가지입니다. 실력의 절대 지표는 아니지만, 그렇다고 완전히 무의미한 숫자라고 하기도 어렵습니다. 사용량 차이가 매우 크게 벌어진다면 그건 단순 낭비가 아니라 탐색량, 실험량, 검증량의 차이일 수 있고, 실제 업무 밀도 차이로 이어질 수도 있습니다. 실제로 젠슨황께서도 연봉의 반 이상의 토큰을 사용해야한다고 말씀하셨죠
https://www.youtube.com/shorts/XBnFPuru4xA

좋은 PRD 역시 만능이 아니라 레버리지입니다. 그래서 결국 중요한 건 “토큰이 실력이냐 아니냐” 같은 단순 구도가 아니라, AI를 활용한 문제 해결 능력을 앞으로 어떤 기준으로 볼 것인가라고 생각합니다.

적어주신 글에 완전히 동의하는 게
사실 “토큰 사용량이 곧 실력이다”는 건 명백히 잘못됐고, 왜곡된 프레임입니다.

오히려 연산자원의 한계(사람을 포함한)가 유일한 병목이라는 걸 깨닫는 시점에서
토큰 사용량의 중요성을 깨닫게 된다는 관점으로 봐야합니다.

저렇게 주장하는 집단이 어디인지는 알고 있지만, 명시하면 법적인 문제가 있을 수 있어서 굳이 언급하지 않은 것이고요.
유명한 기업중에 token 사용량을 측정까지하는 기업이 있고, 아래에 익명으로 언급하시는 분도 있죠.

GeekNews에서도 본인의 토큰 사용량을 자랑하듯 주장하는 글들을 볼 수 있고요.

이런 주장을 하는 사람들이 다수는 아닙니다.
하지만 한국 AI쪽에서는 좀 시끄러운 인문들이 이런 주장을 하고있고, Garry Tan이 요 며칠 계속 fat harness에 대해 계속 비판하는건 한국의 그 종교 스러운 주장이 미국쪽까지 갔다는 증거겠죠.

젠승황의 주장을 들고와서 마치 진실인냥 주장하는것이야 말로 전형적인 권의 주의적 화법이죠.
젠승황이 수십년전에 그래픽카드 만들던 엔지니어지 지금은 엔지니어도 아니고, AI쪽 전문가도 아니잖아요.
상관관계에 대해서는 동의하지만, 제가 이야기하는 집단의 주장은 아무짝에도 쓸모없는 Ralph를 돌릴 뿐이죠.

진실을 말하자면 test-time compute를 처음 주장한 OpenAI의 o1 원 논문에서 조차 계속 올린다고 계속 좋아지는 것은 아니면, 일부의 경우만 그렇다고 명확히 이야기하고있죠.
그 마저도 reasoning effort의 관한 이야기지 ralph loop 돌리라는건 당연히 아니고요.
GPT-5.4 프롬프트 가이드에서도 더 높은 reasoning effort가 항상 더 낫지는 않다고 명시합니다.

https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance

뿐만 아니라 디자인은 오히려 reasoning effort를 줄이라고 권고하죠.

https://developers.openai.com/blog/…

PRD가 만능이 아님에도 만능처럼 주장하는 사람이 있으니 말씀드리는겁니다.

제목은 분명 Ralph loop라는 허상에 대해 어떻게 생각하느냐인데, 정작 본문은 그 주제를 구체적으로 다루기보다 훨씬 넓고 다른 맥락의 이야기들로 퍼져 있어서, 글 전체가 제목과 잘 맞물리지 않는다는 인상을 받았습니다.

그래서 저는 “그런 사람이 실제로 있느냐 없느냐”를 따진 것이 아니라, 본문이 출처와 맥락이 불분명한 극단적 주장들을 한데 묶어놓고 반박하는 구조라서 허수아비 비판처럼 읽힌다고 말씀드린 것입니다.

그런데 제 댓글에 대한 답변 역시 그 지점을 직접 설명하기보다는, 다른 인물과 다른 담론, 다른 사례들을 계속 끌어오는 방식으로 흘러가고 있어서 솔직히 논점 흐리기에 더 가깝게 느껴졌습니다.

특히 유명인 발언 인용을 권위주의적 화법이라고 비판하시면서, 정작 답변에서는 Garry Tan, OpenAI 문서, GPT 가이드 등을 다시 근거로 가져오시는 점도 다소 선택적으로 보였습니다.

토큰 사용량을 과하게 자랑하는 문화가 불편할 수는 있다고 생각합니다. 다만 그것과 별개로, 실제로 반복적인 실험·검증·수정 과정을 거치며 툴과 워크플로를 다듬는 사람들까지 같은 프레임 안에 넣어버리는 건 또 다른 과장이라고 봅니다.

글을 제목만 보고 판단하시나요?
그럼 "Attention Is All You Need" 논문은 어떻게 생각하시는지요?

Garry Tan은 최근 GStack등의 좋은 LLM skills를 만들며 자신의 AI 사용 역량을 보여줬고요.
OpenClaw 창시자도 마찬가지이며, OpenAI는 LLM 연구와 산업을 이끄는 회사의 공식 가이드입니다.

그에반해 젠승황은요? 설마 곡괭이 파는 회사 대표라고 금에 대해 잘안다는 소리는 안 하셨으면 좋겠습니다.
애당초 젠슨황도 누군가의 말을 따라하는것일 뿐이고요.
이게 논점 흐리기라면 할 말 없습니다.

툴과 워크플로를 다듬는 사람들까지 같은 프레임 안에 넣어버리는 건 또 다른 과장이라고 봅니다.

제가 그 툴과 워크플로를 다듬는 사람인데, 셀프 디스를 했다는 말씀이신가요?

저는 제목만 보고 판단한 것이 아니라, 제목과 본문이 얼마나 정합적으로 맞물리는지를 말씀드린 것입니다.

그리고 제가 말씀드린 건 Garry Tan이나 OpenAI가 젠슨 황보다 더 권위 있느냐의 문제가 아니라, 타인의 인용은 권위주의라고 비판하면서 본인 답변에서는 다시 다른 권위를 근거로 가져오는 방식이 일관적으로 보이지 않았다는 점입니다.

마지막으로, “툴과 워크플로를 다듬는 사람들까지 같은 프레임에 넣는다”는 표현은 특정 개인을 지목한 것이 아니라, 글의 서술 방식이 그렇게 읽힐 수 있다는 취지였습니다. 이를 곧바로 “셀프 디스라고 한 것이냐”로 받아들이는 것은 제 댓글의 범위를 조금 넘겨 해석하신 것 같습니다.

그리고 제목과 본문은 다를 수 있다고 보신다면, 이 글은 Ralph loop 자체에 대한 분석이라기보다, 말씀하신 특정 집단 전반을 겨냥한 글이라고 받아들이면 되는지 궁금합니다.

AI/LLM 전문가도 아닌 젠승황의 말을 인용했으니요.

네, 특정 집단 겨냥한 글 맞습니다.
그 중 가장 대표적이고도 이상한 소리인 PRD + Ralph loop에 대해 언급한것이고요.

그런 집단이 있다는걸 모르시는건지, 본인이 그 집단인데 모른척 하시는건지는 모르겠지만요.
국내외에서 계속 그런 집단을 비판하는건 다 이유가 있는겁니다.
아니땐 굴뚝에서 연기가 날리 없죠.

그리고 개인적으로는 이번 글이 꽤 아쉬웠습니다.
GeekNews는 특정 누군가나 집단을 겨냥하는 글보다, 내가 몰랐던 정보나 새로운 관점, 사고의 확장을 주는 글들을 접할 수 있어서 좋다고 느껴왔습니다.
그래서 이번처럼 특정 집단을 전제로 두고 서술이 흘러가는 방식은 더 아쉽게 읽혔습니다.

적어도 제게 GeekNews는 누군가를 프레임으로 묶어 겨냥하는 공간이라기보다, 더 구체적인 정보와 맥락을 통해 생각을 넓히게 해주는 곳에 가까웠습니다. 그래서 이번 글은 주장 자체보다도, 그 주장을 전개하는 방식이 더 아쉽게 남았습니다. 이 정도로만 남기겠습니다.

몇번 말씀드리는지요.

특정 집단이나 인물을 직접 겨냥하는건 제 입장에서 좋지못합니다.

YC CEO, OpenClaw 창시자는 AI 전문가로 불릴만한 사람임을 스스로 입증한 사람들입니다.
젠슨황가 달리요.

PRD를 허상이라고 한적없습니다. 맥락을 좀 보세요.

이런 허상의 주장이 커진 지금, 단순히 저 개인의 분노를 넘어서 대한민국의 AI 나아가 인류 발전과 관련이있는 내용입니다.
이 사람들의 더 커져 다른쪽의 영향력을 가지기 전 연금술을 바로잡아야 하지 않겠어요?

본인이 아니면 넘어가면 되는겁니다.
이미 이 글 다른 댓글에서 공감하거나 제가 얘기하는 집단의 사람들이 저를 공격하러 왔는데요.

그리고 한 가지 더 말씀드리면, “대한민국의 AI”, “인류 발전”, “연금술을 바로잡아야 한다” 같은 표현은 다소 큰 명분이 먼저 앞서는 인상을 받았습니다. 그런 문제의식을 가질 수는 있다고 생각합니다. 다만 그런 정도의 이야기는 커뮤니티에서 누군가를 넓게 묶어 비판하는 방식보다는, 실제 사례나 작업, 더 구체적인 검증 기준을 함께 보여줄 때 훨씬 설득력 있게 전달된다고 느꼈습니다.

또한 YC CEO나 OpenClaw 창시자의 발언은 의미 있는 근거로 받아들이면서, 젠슨 황 인용만 유독 권위주의처럼 다루는 방식도 제게는 일관적으로 보이지 않았습니다. 결국 누구의 말은 근거가 되고 누구의 말은 무의미해지는지의 기준이 주장 자체보다 화자에 따라 달라지는 것처럼 읽혔습니다. 젠슨 황의 말이 결정적 근거가 아닐 수는 있어도, 그렇다고 그 인용만 유독 무가치한 발언처럼 취급하는 것은 조금 과한 해석처럼 느껴졌습니다.

결국 그런 주장이 다른 사람들에게도 와닿으려면, 비판만 반복하기보다 직접 참고하고 검증해볼 수 있는 사례나 작업이 함께 제시되어야 한다고 생각합니다. 그래야 지금 말씀하시는 방향도 단순한 반감이 아니라 실제로 설득력 있는 문제제기로 읽힐 수 있을 테니까요. 그런 결과물이 있다면 저도 그때는 한 번 적극적으로 읽어보고, 필요하면 직접 사용해보겠습니다.

동어반복 그만하시고요. 제가 하지 않은 이야기를 했다하고계시고, 반박한 내용에 또 의문을 제시하십니다.

솔직히 지금 글과 답변을 함께 볼수록, 정보나 분석을 위한 글이라기보다 특정 흐름을 비난하고 싶은 감정이 더 앞선 글처럼 느껴집니다.

정말 정밀하게 비판하고 싶으셨다면, 커뮤니티에 실제로 어떤 글이 있었고 누가 어떤 맥락에서 어떤 주장을 했는지를 더 분명히 가져오셨으면 됐을 것 같습니다. 그런데 그런 구체적인 사례 대신 “한국 개발 바닥”, “그런 집단”, “종교스러운 과장” 같은 큰 표현으로 먼저 묶어버리니, 읽는 입장에서는 실제 주장보다 연상과 프레임이 더 강하게 남습니다.

특히 om 계열을 연상시키는 표현을 던져놓고도 정작 특정 집단이나 인물을 직접 겨냥하는 건 아니라고 말씀하시는 방식은, 정보성 글이라기보다 누군가를 넓게 비난하고 싶은 기분이 더 강하게 읽히게 만듭니다.

게다가 반응하는 사람에게 “본인이 아니면 그냥 지나가면 된다”, “공감하거나 제가 얘기하는 집단의 사람들이 공격하러 왔다”는 식으로 말씀하시는 것도 논의라기보다 낙인찍기 방식에 가깝게 느껴집니다. 애초에 그렇게 강한 프레임으로 글을 열어두면 반감과 이견이 생기는 건 자연스러운 일인데, 그 반응을 다시 특정 집단으로 묶어 해석해버리면 결국 어떤 반론도 프레임 안으로 흡수되어 버리게 됩니다.

저는 그런 방식이야말로 정보와 맥락을 나누는 글의 문법이라기보다, 커뮤니티식 대립 구도를 만드는 문법에 더 가깝다고 생각합니다. 그리고 솔직히 그런 식의 글이라면 X나 스레드 같은 공간에서는 익숙할 수 있어도, 적어도 제가 기대했던 GeekNews의 분위기와는 거리가 있어 보여 더 아쉽습니다.

저는 GeekNews가 누군가를 크게 묶어 비난하는 곳이라기보다, 직접 해본 것과 구체적인 정보, 그리고 생각의 폭을 넓혀주는 맥락을 나누는 공간에 더 가깝다고 느껴왔습니다. 그래서 이번 글은 주장 자체보다도, 그것을 다루는 방식에서 더 큰 아쉬움이 남았습니다.

그렇다면 결국 이 글은 Ralph loop 자체를 분석하는 글이라기보다, 말씀하신 특정 집단 전반을 겨냥한 글로 이해하면 될 것 같습니다.

다만 그런 글일수록 대상 설정은 더 엄밀해야 한다고 생각합니다. “그런 집단이 있다”, “국내외에서 계속 비판받는다”는 표현만으로는 실제 주장과 과장된 프레임이 잘 구분되지 않고, 결국 서로 다른 사람들과 맥락을 한데 묶어버리는 방식으로 읽히기 쉽습니다. 특정 집단이라는 기준 자체가 이미 강한 프레임인데, 그 경계가 불분명한 상태에서 상대를 그 안에 넣는 식의 답변은 논의를 정교하게 만들기보다 더 거칠게 만든다고 봅니다.

그리고 다른 사람들의 발언과 사례는 계속 근거로 가져오면서, 젠슨 황 인용만 유독 권위주의로 취급하는 방식도 일관적으로 느껴지지는 않았습니다. OpenClaw 창시자나 YC CEO 역시 각자의 맥락과 권위를 가진 인물들인데, 한쪽의 인용은 정당한 근거가 되고 다른 쪽의 인용은 곧바로 무의미해지는 식이라면 결국 기준이 주장 자체보다 화자에 따라 달라지는 것처럼 보일 수밖에 없습니다. 실제로 그런 분들 역시 적지 않은 연산과 사용량 위에서 실험하고 있을 가능성이 큰데, 어느 쪽은 역량의 증거처럼 읽고 어느 쪽은 허상의 상징처럼 읽는다면 그 구분 기준부터 더 분명해야 한다고 생각합니다.

PRD 역시 만능은 아니지만, 그렇다고 그 역할까지 허상처럼 밀어버리면 실제 개발의 반복적 릴리즈·검증·수정 과정과도 잘 맞지 않습니다. 불편한 문화가 있을 수는 있지만, 그 반감이 곧바로 넓은 일반화의 근거가 되지는 않는다고 생각합니다. 여기까지 하겠습니다.

oh-my-whatever를 비롯한 토큰 리더보드 등등의 것들은 전부 마케팅을 위한 노이즈라고 생각합니다.

하네스를 만들어서 뭔가 쓸모있는게 나오기보다, 그냥 더 복잡하고 토큰 태우기에 최적화된 하네스가 나오는 비율이 높은데, 그게 제일 가시성이 높고 단기적으로 주목받기 좋으니까 거기에 열광하는 사람도 많은것 같아요.

이런 것에 적응 못하는게 딱 loser 마인드라 하는 사람도 있더군요. 이걸 가지고 한국이 빠르고 SF가 느리다는 주장도 있고.

다만 랄프루프니 하네스니 뭐니 하는것들은 전부 결국엔 모델의 내부 기능으로 흡수될거고 그때가 되면 잘 만든 PRD 하나로 AI가 해결해주는게 호들갑은 아닐거라고 생각합니다.

대신 지금 당장 하네스 온몸 비틀기로 뭔가 대단한걸 하는 양 포장하고 우려먹는건 그냥 number go up 하는클릭커 게임 중독자랑 크게 다를게 없다고 봐요.

https://x.com/WillManidis/status/2021655191901155534 좀 됐는데 이 글이 비슷한 맥락이었습니다.

인기가 많다는 건 그만큼 평균치에 가까운거 아닐까요? 높은 수준이 아니라 평범한 수준에서 만족할만한.. 하지만 이게 심해지면 도구 페니쉬 됩니다. 아직도 C 냐 java 냐로 갑론을박 하는 사람들이 있어요.

평균은 사실 랄프루프랑 하네스랑은 많이 멀고, 바닐라 claude code 수준이라고 생각합니다. 솔직히 모집단을 조금 넓게 잡으면 클로드 코드만 써봤어도 평균 이상이라 봐요.

이런 것들이 평균처럼 보인다면 저들의 FOMO 마케팅이 성공적이었다는 뜻이라고 생각합니다.

새로운 연금술사 시대가 도래했다고 봐야 할까요?

전적으로 공감합니다
개인적으로는 그냥 한국에서 유사 인플루언서가 되고싶은 사람들이라고 생각해요.

좋은 글 공유 감사합니다
AI 코딩, HITL도 중독성은 있죠.

이런걸 보면 확실히 사람이 뭔가를 만드는걸 좋아하는 본능 같은게 있나봐요

  1. 와 5년 전에 제가 올린 글을 봐서 반갑네요 🙌
  2. 저 때는 코드 저작권 관련된 이야기가 있었는데, 이젠 다 사라졌군요. Clean하게 해결 되어서 사라진게 아니라, 그냥 양으로 덮어버린거 같은데 😶‍🌫️

codex를 5년 전이요...? ChatGPT도 22년 출시라서 아직 5년이 안됐는데...
혹시 Ask GN 본문도 AI로 작성하셔서 환각이 들어간걸까요?

Codex 자체는 오래됐어요. 저도 Geeknews에서 보고 GPT-3 프리뷰 신청했던 기억이 나네요

혹시 GPT-3 프리뷰와 Codex 가 어떤 관련이 있는지 알 수 있을까요?
당시에 Codex 가 있었다는 말씀이실까요? 아니면 코드를 작성하는 AI 가 있었고 이게 Codex 다 라는 말씀이실까요?

옛날 deprecated된 모델 라인업 중에 code-davinci-, code-cushman- 계열이 Codex 모델이에요. Codex라는 브랜드 자체는 굉장히 오래된거에요.

https://www.youtube.com/watch?v=SGUCcjHTmGY

물론 codex 명이 동일한 건 아니고 code 모델이 존재했던 것으로 보이네요.

와, 이건 좀 충격적이네요. 저도 gpt-2, dall-e, gym 시절부터 사용하던 사람인데 codex 라는 모델명을 처음 봤습니다. 안내해주셔서 감사드립니다!

첨언하자면 codex는 2025년 5월 출시했습니다.

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

모르는걸 티내기 전에 나무위키라도 한번 뒤져 보는게 어때요?

아, 참고로 ChatGPT Atlas가 제가 가입한지 1812일째라네요.

아하 그러니까 현재의 codex와 당시의 codex는 다른 형태의 제품인거네요
당시의 codex는 openai의 코드 중심 LLM모델명이었던거고
같은 브랜드를 사용해서 현재의 codex 플랫폼을 런칭한거군요

제가 당시에 github copilot을 사용했는데 기반 모델이 GPT-3 이었던 사실까지만 알고
모델명에 codex라는 브랜드를 사용했는줄은 몰랐습니다

Codex가 모델이 아니고요.
GPT-5.3-Codex같은건 최근에서야 명명된거고요.

GPT-3 기반의 코딩용 fine-tune된 모델을 사용 가능한 VSCode 확장 이름입니다.
(web은 아무도 안 씀)
같은 모델과 방식을 Github Copilot에서도 썼고요.

당시에는 의미있는 채팅을 못했으니, 말 그대로 다음 단어 예측과 같았죠.
단지, 백준 문제를 적으면 solve 함수를 짜는 궁극의 자동완성 같았을 뿐이죠.
(Cursor에 있던걸 OpenAI가 먼저했다는 겁니다.)

말씀해주신 건 codex model을 사용한 vscode 확장인 듯 하고(혹시 이건가요?https://github.com/Implicate-dev/codex-vscode)
Mark Chen이 2021년에 기고한 논문을 보면 openai에서는 codex를 fine-tune된 모델 이름으로 공개했었나봅니다.

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities
출처 https://arxiv.org/abs/2107.03374

맞는거같지만, 오래돼서 정확한건 기억 안 납니다.

한국사이트가 아니라 미국사이트들에서 토큰 사용량이 높아야 한다는 얘기를 보고 의아에한 기억이 납니다. 한국뿐아니라 미국도 마찬가지고 수긍하기 힘든 이상한 얘기와 부풀린 이야기, 등이 난무하고 있네요.

한국은 거의 반년전부터 이런 주장이 나왔다, 최근들어 심하게 이야기가 나오는거같아요.
Garry Tan 같은 사람이 적극 아니라고 하고 있고요

좀 다른 맥락의 이야기지만, 더 저렴한 하드웨어에서 더 많은 토큰을 들여 검증하는 것이 비싼 클라우드 API 쓰고 토큰 절약 하는 것보다 낫다는 생각은 갖고있습니다.

에이전트나 하네스의 발달로, 모델의 정밀도와 크기보다 더 많은 검토와 검증이 가능한 경제성을 갖춘 구조가 더 선호되긴 하는것 같습니다.

GDN, Mamba 등장이후는 특히 더 그렇다고생각합니다.

개인적으로는 동의하기 어렵습니다.
Opus 같은 경우는 지나치게 비싸지만, GPT-5.4 정도의 가격이라면 중국산 저렴한 모델을 하루종일 돌리는것보다 5.4를 몇번 돌리는게 여러 경제적 측면에서 더 나을것입니다.

제가 생각했을 때, 세상에서 학습 효율이 가장 뛰어난 프로게이머들조차 새로운 것을 배우지 못해 실패하는 비율이 높은 이유는, 단순히 실력이 부족해서가 아니라고 봅니다.
오히려 그 반대라고 생각합니다.
너무 오랫동안, 그리고 너무 높은 수준으로 기존 메타에 최적화되어 있었기 때문에 변화 앞에서 더 큰 어려움을 겪는 경우가 많다고 봅니다.
처음에는 모든 판단이 의식적으로 이루어집니다.
하지만 반복 학습이 쌓이면, 처음에는 대뇌에서 처리하던 판단이 점점 자동화되고, 숙련자는 생각보다 몸이 먼저 반응하는 단계에 도달하게 됩니다.
저는 이 자동화가 분명 엄청난 강점이라고 생각합니다.
다만 메타가 바뀌는 순간에는, 그 강점이 오히려 강한 관성으로 바뀔 수 있다고 봅니다.
예전 메타에서 정답이었던 시야, 교전, 운영 감각은 수천 시간 동안 몸에 새겨집니다.
그래서 게임 구조가 바뀌고, 이전의 정답이 더 이상 정답이 아니게 되어도 몸은 계속 예전 방식대로 먼저 움직이려 한다고 생각합니다.
결국 문제는 새로운 것을 배우는 능력이 부족해서가 아니라, 기존의 최적화를 버리는 능력에 있다고 봅니다.
대부분의 숙련은 축적의 결과이기도 하지만, 동시에 관성의 결과이기도 하기 때문입니다.
그래서 저는 잘했던 사람일수록 다음 메타에서도 무조건 유리한 것은 아니라고 생각합니다.
오히려 이전 시대의 성공에 더 강하게 묶일 가능성도 충분히 크다고 봅니다.
지금의 코딩 업계도 크게 다르지 않다고 생각합니다.
많은 분들이 여전히 예전 방식으로 효율을 계산하고, 예전 기준으로 생산성을 판단하고 계십니다.
하지만 저는 이미 메타가 바뀌고 있다고 봅니다.
학력이나 경력과 무관하게 실제로 세상에서 벌어지는 일들을 보면, 과연 지금도 시장이 예전과 완전히 같은 구조로 움직이고 있는지, 그리고 개발이 여전히 종속적인 가치만 제공하고 있는지 다시 생각해볼 필요가 있다고 생각합니다.
결국 다음 단계로 가는 사람은 더 성실하게 쌓아가는 사람만이 아니라, 기존의 것을 더 빨리 버릴 수 있는 사람이라고 봅니다.
제가 보기에는 새로운 시대에서는 더 많이 축적하는 능력보다, 낡은 최적화를 걷어내는 능력이 훨씬 더 중요해지고 있습니다.

그렇게 생각하시면 24시간 생방이라도해서 직접 보여주시면 되는겁니다.


좋은 아이디어 감사합니다.
역시 연륜은 다르네요 👍👍👍👍👍👍👍👍👍

안 된다는 긴 얘기 잘 들었습니다.

동감합니다, 다만 omo와 같은 잘 만들어진 하네스 셋은 개발에 도움이 되는게 맞다고 생각해요 (랄프루프가 메인은 아닌걸로 알고있습니다. 선택지로 주어지지 않나요? ulw였나..?)

결론만 이야기하면 토큰 사용량하고 아무런 관계 없는 것 같습니다.
자동화에 관해서는 개발자들 사이에서는 뿌리 깊은 문화가 있어서 공통적으로 바라보는 직업의 성취 목표 같은 느낌으로 자리하고 있는데요.

이 부분이 밤새워 자동으로 코드를 작성하거나 프로덕트를 만드는데에 환상을 갖게 되는 것 같습니다.

사실 개발자의 시각이 아니라 실제 사업적 효용성이나 사업운영의 입장에서 보면, 성능이나 만듦새, 빠른 대응 보다는 문제를 측정하고 해결책을 찾는게 더 중요하게 판단되는 부분들이 많은 것이 현실인데요...

흔히 좋은 앱을 만들거나 서비스를 잘 만들면 대박난다는 개발자 특유의 환상들이 상황을 왜곡하는 것 같아요.

집안 머리카락을 몇개 집는데에 필요한 건 고성능 청소기 5백종류가 아니라 그냥 내 손가락을 대신해줄 간단한 무언가 하나에요.

토큰 소모는 세션 관리 잘못하거나 SDD 잘못사용하면 간단한 서버 개발에도 2-3일이면 클로드 기준 100불도 잡아먹습니다.
토큰 소모는 잘못 쓰고 있다는 명세가 불명확하기 때문에 잘못된것을 본인 스스로 판단하기도 어렵더군요.

내용이야 어쨌든 토큰 소모량이 AI 활용의 척도로 삼는 것은 밥 많이 먹는다고 능력있다는 이야기와, 회사에서 밤새워 연필로 기존 문서 옮겨적는다고 일을 많이 했다고 말하기 힘든것과 동일한 것 같네요.

지금이야 정확한 척도가 없어서 토큰 소모량과 자동화에 힘쓰지만,
이 다음 단계로 곧 실제적인 가치를 창출하는 방법에 대해서 논의가 시작될것으로 보이네요.

사실 미국이라고 뭐 크게 다른것 같진 않습니다. Oh-my 류 코딩 하네스는 프로젝트 팀이 한국이라 미국을 포함한 외국에 마케팅이 덜되어서 그런것이고, 대표적인 토큰 맥시멀리스트인 스티브 예게나 카파시가 주장하는 것들을 보면 말씀하신것들과 크게 다르지않더라구요. 그 추종자들도요.

사내에서 토큰 사용 리더보드를 만들고 회사별로 경쟁도 하던데 개인적으로는 AI 회사들의 마케팅에 넘어간 거라고 생각합니다.
최근 바이럴되는 것들을 보면 토큰 대비 성능은 전혀 고려하지 않는 것 같더라구요.

웃긴건 AI 회사들은 그런 마케팅을 하지 않아요
오히려 이전 모델들보다 더 적은 reasoning token으로 더 좋은 성능을 낸다고하죠

5년 전...? 혹시 주식 추천 가능할까요

삼성전자요.