이러한 붕괴의 기저에는 트랜스포머 아키텍처의 심장부인 '소프트맥스 정규화'가 가진 수학적 한계가 존재한다. 어텐션 메커니즘 하에서 모든 토큰의 주의 집중 가중치 합은 반드시 1이 되어야 하는 제로섬 분포를 따른다. 따라서 입력 시퀀스의 길이 N이 기하급수적으로 확장될수록, 특정 핵심 토큰에 할당될 수 있는 정보적 가중치는 필연적으로 1/N로 수렴하며 산술적으로 희석된다. 이는 단순한 연산의 비효율성을 넘어, 모델이 처리해야 할 '노이즈 플로어(Noise Floor)'가 급격히 상승함을 의미한다.

이건 뭐 장난하자는 것도 아니고..