논증만 열거하고 주장에 대한 결정적인 근거와 직접적인 실험은 없는 영양가 없는 글이네요

Yann LeCun의 "GPT-5000 가서도 모델은 테이블 위에 물건을 두고 테이블을 밀면 물건도 같이 밀린다는걸 학습하지 못할것이다," 나 "자가회귀 모델은 긴 시퀀스로 갈 수록 오류의 누적으로 반드시 붕괴한다" 의 지루한 연장선 같은...

막말로 백서 마지막에 언급한 회사 바이럴용 업로드가 아닌지 의심되네요.

이러한 붕괴의 기저에는 트랜스포머 아키텍처의 심장부인 '소프트맥스 정규화'가 가진 수학적 한계가 존재한다. 어텐션 메커니즘 하에서 모든 토큰의 주의 집중 가중치 합은 반드시 1이 되어야 하는 제로섬 분포를 따른다. 따라서 입력 시퀀스의 길이 N이 기하급수적으로 확장될수록, 특정 핵심 토큰에 할당될 수 있는 정보적 가중치는 필연적으로 1/N로 수렴하며 산술적으로 희석된다. 이는 단순한 연산의 비효율성을 넘어, 모델이 처리해야 할 '노이즈 플로어(Noise Floor)'가 급격히 상승함을 의미한다.

이건 뭐 장난하자는 것도 아니고..