단순한 계산 수행보다 훨씬 흥미로운 접근임
모델이 토큰 수의 로그에 비례하는 동적 어텐션 전환을 수행할 수 있음
이렇게 하면 텍스트로 표현된 레지스터와 스택을 추적하며 프로그램 실행을 흉내낼 수 있음
만약 LLM이 ‘집중 모드’로 전환해 매우 빠르게 토큰을 생성할 수 있다면, 수많은 가설을 탐색하고 정리하는 추론 단계를 가속화할 수 있을 것임
논문에서는 빠른 경로와 느린 경로를 결합한 하이브리드 구조나, 추측 실행(speculative execution) 모델로 활용 가능하다고 제안함
처음엔 “왜 이런 걸 해야 하지?”라는 생각이었지만, 지금은 훈련 부트스트랩 관점에서 보게 됨
예를 들어 80% 정확도의 전문가 시스템을 모델에 내장하고, 그 결과를 학습 데이터로 삼아 정확도를 높일 수 있음
다양한 작업의 훈련 비용을 낮출수록 AI 경쟁의 진입 장벽이 낮아짐
하지만 이 접근법은 훈련에는 부적합함
softmax 어텐션과 달리 average-hard 어텐션은 키와 쿼리에 대해 미분 불가능함
straight-through 추정으로 보정해도 역전파 속도는 향상되지 않음
인간의 뇌는 계산 능력이 뛰어나지 않음
10자리 수 곱셈도 오래 걸림. 이런 계산은 논리 게이트가 훨씬 효율적으로 처리함
그렇다면 LLM이 직접 계산하기보다 ALU 같은 외부 모듈을 호출하는 게 더 낫지 않을까 생각함
하지만 내장 프로그램을 모델의 다른 가중치와 연결하면, 단순 계산을 넘어 다양한 고정 알고리즘을 통합할 수 있음
또 이 접근은 모델에 기하학적 직관과 공간 추론 능력을 가르치는 메커니즘이 될 수 있음
시도조차 하지 않으면 가능성을 알 수 없음. 결정적 계산을 신경망 내부에 통합하면 도구 호출 오버헤드를 줄일 수도 있음
AI가 작성한 듯한 문체지만, 핵심 메시지가 불분명함
모델이 외부 시스템 대신 내부에서 프로그램을 실행하는 게 왜 좋은지, 속도·역전파·벤치마크 중 어떤 이점이 있는지 명확하지 않음
단순히 “AI가 쓴 글 같다”는 비판보다는, 내용 자체를 논의해야 함
일부는 상징 논리(symbolic logic)가 필수라고 믿지만, 이런 시도는 단순히 흥미로운 실험으로 볼 수 있음
실제로 논문을 보면, 실행 추적이 순전파의 일부이기 때문에 미분 가능하며, 계산 자체를 통해 그래디언트를 전파할 수 있음
이는 외부 도구 호출과 근본적으로 다름
또 O(k + log n) 복잡도의 디코딩 비용을 가지며, Sudoku 같은 문제를 100% 정확도로 푼다면 충분히 의미 있음
이런 방식을 MoE 스타일로 결합하거나, WASM 기반 VM 내장처럼 다양한 해석기를 실험해볼 수 있을 것임
외부 도구 호출을 제거하면 보안성도 향상됨. 외부 도구가 손상될 위험이 사라짐
모델이 실행 중에 코드를 작성하고 수정할 수 있다는 점이 핵심임. 인간의 “아하 모먼트” 와 유사한 동적 실행임
문체의 반복은 일반 독자를 위한 설명일 수 있음. 인간도 종종 그런 실수를 함
모델의 내부 계산 경로에 도구를 통합하는 아이디어가 해석 가능성 측면에서 매우 흥미로움
단순한 Transformer로 이런 효율을 낼 수 있다는 점이 놀라움
잠재력은 있지만, 현재 상태로는 실용성이 낮음
가중치나 “컴파일러” 도구가 공개되지 않아 실험이 어려움
그래도 사전 정의된 계산 프리미티브를 LLM에 내장하는 아이디어는 여전히 유용할 수 있음
이 문장이 핵심임:
“실행 추적이 순전파의 일부이기 때문에, 계산 자체를 통해 그래디언트를 전파할 수 있음”
즉, 외부 도구 호출과 달리 훈련 가능한 계산 기반이 됨
하지만 실제로는 완전한 미분 가능 구조가 아니며, 논문에서도 근사적 방법만 제안함
또 훈련 데이터나 손실 함수 설계가 불분명함
다만 도구 호출이 배치 효율성을 깨뜨린다는 점에서, 내부 계산 서브넷을 통과시키면 대규모 효율 향상이 가능함
다만 그 서브넷이 굳이 Transformer일 필요는 없고, GPU에 최적화된 비학습 레이어로도 충분할 것 같음
논문이 핵심을 숨기고 있음
어텐션 헤드 차원을 2로 제한하면, 로그 시간 복잡도로 토큰을 검색·갱신할 수 있음
하지만 왜 이 전략이 “코드 토큰”에만 적용되는지 불분명함
WASM을 타깃으로 삼은 것도 효율성 측면에서 의문임
두 차원과 RoPE, hard-max 어텐션을 사용하면 상대 주소 지정을 단일 헤드로 구현할 수 있음
그러나 논문은 수식이나 훈련 세부 정보가 부족하고, 비표준 용어를 사용함
예를 들어 self-attention을 “lookup table”로 표현하는 건 부정확함
코드 예시에서 d_model = 36, n_heads = 18로 2D per head를 구성했지만, 여전히 불명확함
Sudoku 솔버를 Transformer 가중치로 어떻게 컴파일했는지 구체적 설명이 없음
직접 코드-투-웨이트 컴파일을 했는지, 아니면 학습으로 습득했는지 불명확함
내 해석으로는, 단순한 가상 머신을 가중치에 내장하고, 그 위에서 WASM 런타임을 컴파일한 뒤 솔버를 실행한 것 같음
실제로 논문에는 WASM 인터프리터를 학습했다고 명시되어 있음
흥미롭지만, “왜 굳이 이렇게 해야 하는가”라는 의문이 남음
인간의 뇌도 튜링 머신을 시뮬레이션할 수 있지만 느림. 그래서 외부 도구를 사용함
모델도 마찬가지로 외부 도구를 쓰는 게 더 효율적이지 않을까 생각함
논문은 Python 호출의 오버헤드를 줄이기 위해 WebAssembly 내장을 제안하지만, 이는 90년대의 프로세스 vs 스레드 논쟁과 유사함
Elixir 같은 언어를 내장해 더 짧은 코드를 실행하는 것도 가능할 것임
“계산할 수 없는 시스템은 계산을 이해할 수 없다”는 철학적 주장도 흥미로움
모델이 실행 중에 코드를 수정하거나 디버깅 능력을 가질 수 있다는 발상임
Hacker News 의견들
단순한 계산 수행보다 훨씬 흥미로운 접근임
모델이 토큰 수의 로그에 비례하는 동적 어텐션 전환을 수행할 수 있음
이렇게 하면 텍스트로 표현된 레지스터와 스택을 추적하며 프로그램 실행을 흉내낼 수 있음
만약 LLM이 ‘집중 모드’로 전환해 매우 빠르게 토큰을 생성할 수 있다면, 수많은 가설을 탐색하고 정리하는 추론 단계를 가속화할 수 있을 것임
논문에서는 빠른 경로와 느린 경로를 결합한 하이브리드 구조나, 추측 실행(speculative execution) 모델로 활용 가능하다고 제안함
처음엔 “왜 이런 걸 해야 하지?”라는 생각이었지만, 지금은 훈련 부트스트랩 관점에서 보게 됨
예를 들어 80% 정확도의 전문가 시스템을 모델에 내장하고, 그 결과를 학습 데이터로 삼아 정확도를 높일 수 있음
다양한 작업의 훈련 비용을 낮출수록 AI 경쟁의 진입 장벽이 낮아짐
softmax 어텐션과 달리 average-hard 어텐션은 키와 쿼리에 대해 미분 불가능함
straight-through 추정으로 보정해도 역전파 속도는 향상되지 않음
인간의 뇌는 계산 능력이 뛰어나지 않음
10자리 수 곱셈도 오래 걸림. 이런 계산은 논리 게이트가 훨씬 효율적으로 처리함
그렇다면 LLM이 직접 계산하기보다 ALU 같은 외부 모듈을 호출하는 게 더 낫지 않을까 생각함
AI가 작성한 듯한 문체지만, 핵심 메시지가 불분명함
모델이 외부 시스템 대신 내부에서 프로그램을 실행하는 게 왜 좋은지, 속도·역전파·벤치마크 중 어떤 이점이 있는지 명확하지 않음
일부는 상징 논리(symbolic logic)가 필수라고 믿지만, 이런 시도는 단순히 흥미로운 실험으로 볼 수 있음
이는 외부 도구 호출과 근본적으로 다름
또 O(k + log n) 복잡도의 디코딩 비용을 가지며, Sudoku 같은 문제를 100% 정확도로 푼다면 충분히 의미 있음
이런 방식을 MoE 스타일로 결합하거나, WASM 기반 VM 내장처럼 다양한 해석기를 실험해볼 수 있을 것임
모델의 내부 계산 경로에 도구를 통합하는 아이디어가 해석 가능성 측면에서 매우 흥미로움
단순한 Transformer로 이런 효율을 낼 수 있다는 점이 놀라움
잠재력은 있지만, 현재 상태로는 실용성이 낮음
가중치나 “컴파일러” 도구가 공개되지 않아 실험이 어려움
그래도 사전 정의된 계산 프리미티브를 LLM에 내장하는 아이디어는 여전히 유용할 수 있음
이 문장이 핵심임:
“실행 추적이 순전파의 일부이기 때문에, 계산 자체를 통해 그래디언트를 전파할 수 있음”
즉, 외부 도구 호출과 달리 훈련 가능한 계산 기반이 됨
또 훈련 데이터나 손실 함수 설계가 불분명함
다만 도구 호출이 배치 효율성을 깨뜨린다는 점에서, 내부 계산 서브넷을 통과시키면 대규모 효율 향상이 가능함
다만 그 서브넷이 굳이 Transformer일 필요는 없고, GPU에 최적화된 비학습 레이어로도 충분할 것 같음
논문이 핵심을 숨기고 있음
어텐션 헤드 차원을 2로 제한하면, 로그 시간 복잡도로 토큰을 검색·갱신할 수 있음
하지만 왜 이 전략이 “코드 토큰”에만 적용되는지 불분명함
WASM을 타깃으로 삼은 것도 효율성 측면에서 의문임
예를 들어 self-attention을 “lookup table”로 표현하는 건 부정확함
코드 예시에서
d_model = 36, n_heads = 18로 2D per head를 구성했지만, 여전히 불명확함Sudoku 솔버를 Transformer 가중치로 어떻게 컴파일했는지 구체적 설명이 없음
직접 코드-투-웨이트 컴파일을 했는지, 아니면 학습으로 습득했는지 불명확함
흥미롭지만, “왜 굳이 이렇게 해야 하는가”라는 의문이 남음
인간의 뇌도 튜링 머신을 시뮬레이션할 수 있지만 느림. 그래서 외부 도구를 사용함
모델도 마찬가지로 외부 도구를 쓰는 게 더 효율적이지 않을까 생각함
Elixir 같은 언어를 내장해 더 짧은 코드를 실행하는 것도 가능할 것임
모델이 실행 중에 코드를 수정하거나 디버깅 능력을 가질 수 있다는 발상임