인터넷 돌아다니다가 흥미로운 PDF 문서 하나 발견했습니다. 읽어보니까 내용이 개인적으로는 꽤 충격적이라 공유해 봅니다.

요즘 AI 씬에서 다들 밀고 있는 다중 에이전트 방식을 까는 내용인거 같은데, AI한테 자율성을 주면 안 되고 아예 '렌더링 부품'처럼 써야 한다고 말하는거 같네요.

문서 제목도 가제로 되어 있고, 후반부에 무슨 실증 데이터(PoC) 이야기가 나오는 걸 보니, 어디 딥테크 회사나 연구소에서 투자용으로 쓴 내부 백서가 유출된 게 아닌가 싶습니다.

솔직히 무슨 내용인지 100% 다 이해하진 못했지만, 지금 빅테크들이 가는 방향이 틀렸다고 대놓고 들이받는 톤이 꽤 흥미로워서 올려봅니다.

정식 기사가 아니라 제 구글 드라이브에 올려서 링크 공유합니다.

댓글과 토론

대형 언어 모델(LLM)에서 '창의성'과 '환각(Hallucination)'이 결국 동일한 확률론적 다음 토큰 예측(Next-token prediction)의 결과물이라는 것은 AI를 다루는 엔지니어들에게는 숨겨진 적도 없는 너무나 당연한 기본 전제인데, 백서는 마치 이를 대단한 비밀을 폭로하는 것처럼 과장하고 있습니다.

다중 에이전트의 '자율 교정'을 단순히 동일한 컨텍스트 내에서의 '동어반복(Homogeneous Iteration)'으로 한정 짓고 비판하는 논리가 다소 아쉽습니다.

실제 개발 환경에서 지능형 에이전트를 IDE 내에 통합하고 고도화된 프롬프트 엔지니어링을 수행해 보면, 모델의 이러한 확률론적 본질은 '극복 불가능한 치명적 결함'이라기보다는 시스템을 설계할 때 상수로 두어야 할 '기본 조건'일 뿐입니다. 모델이 컨텍스트를 벗어날 수 있다는 것을 이미 전제로 두고, 명확히 분리된 컨텍스트를 제공하거나 다른 스케일의 컨텍스트를 통해 실질적인 통제력을 확보하는 것이 현장의 방식입니다.

그런데 이 백서는 누구나 아는 이 뻔한 사실을 '범주적 오류', '확률적 우회' 같은 거창한 학술적 용어로 포장하여 불안감을 조성합니다. 그 목적은 명확해 보입니다. LLM의 자율성 자체를 완전히 깎아내려야만 자신들이 제안하는 '인간이 직접 설계하는 결정론적 통제망(SERA 시스템)'의 가치를 극대화할 수 있기 때문입니다.

결국 이 글은 기술적 균형감을 갖춘 백서라기보다는, 환각 현상에 대한 리스크를 두려워하는 엔터프라이즈 환경의 의사결정권자들을 타겟으로 "통제 불가능한 에이전트 대신 우리의 하드코딩된 결정론적 파이프라인을 도입하라"고 설득하기 위해 작성된 편향된 세일즈 피치(Sales Pitch)에 가깝습니다.

논증만 열거하고 주장에 대한 결정적인 근거와 직접적인 실험은 없는 영양가 없는 글이네요

Yann LeCun의 "GPT-5000 가서도 모델은 테이블 위에 물건을 두고 테이블을 밀면 물건도 같이 밀린다는걸 학습하지 못할것이다," 나 "자가회귀 모델은 긴 시퀀스로 갈 수록 오류의 누적으로 반드시 붕괴한다" 의 지루한 연장선 같은...

막말로 백서 마지막에 언급한 회사 바이럴용 업로드가 아닌지 의심되네요.

이러한 붕괴의 기저에는 트랜스포머 아키텍처의 심장부인 '소프트맥스 정규화'가 가진 수학적 한계가 존재한다. 어텐션 메커니즘 하에서 모든 토큰의 주의 집중 가중치 합은 반드시 1이 되어야 하는 제로섬 분포를 따른다. 따라서 입력 시퀀스의 길이 N이 기하급수적으로 확장될수록, 특정 핵심 토큰에 할당될 수 있는 정보적 가중치는 필연적으로 1/N로 수렴하며 산술적으로 희석된다. 이는 단순한 연산의 비효율성을 넘어, 모델이 처리해야 할 '노이즈 플로어(Noise Floor)'가 급격히 상승함을 의미한다.

이건 뭐 장난하자는 것도 아니고..

그냥 예전부터 이어져오던 Neuro-Symbolic에 대한 담론이지 않나 싶습니다. 한때 "결정론적"에 지금보다 더 많은 의미를 부여하던 시기가 있었습니다. 하지만 결정론적 수준으로 확률 모델이 근사될 정도로 성능이 향상되면서 많은 논쟁의 여지가 사라지게 되었죠. 결국 우리가 늘 원하던 건 결정론적인 무언가가 아니라, "용인할만한" 불확실성이었습니다. 그 점에서 적어도 학계가 아닌 "업계"에 시선에서는 결정론에 너무 많은 의미를 부여할 필요는 없지 않나 싶습니다. 적어도 현행 생성 모델들의 불확실성이 정체된 시점에서 통합이 진행돼도 전혀 늦지 않으니까요.

어렵게 써뒀지만, 결국 하고싶은 말은 사람에게도 적용되는 내용이죠.
바보 A가 작성한 글을 바보 A가 다시 본다고 더 좋은 글이 되느냐에 문제죠.

물론 소수의 경우 더 좋아질 여지도 존재하고, 모든 문제를 찍어서 수능 만점을 받을 확률도 있지만, 대부분의 경우는 바보 A의 N번 평균 수준으로 회귀할 뿐이죠.

(Chapter 2는 완전히 동의하지는 못하겠네요.)

다만 논문에서 이야기하는것처럼 what-ever Scaling Law는 일시적인 증가법칙이지, 영원한게 아님을 좀 알았으면 좋겠어요.
OpenAI 논문을 제대로 봤다면 이런 소리를 할리도 없겠지만요.

사실 저런 논문 100편보다 그냥 된다라고 주장하는 사람이 되는것을 증명하면 끝날일이죠.

된다라는 연금술만 하고 있으니 문제죠.