Hacker News 의견들
  • 단순한 계산 수행보다 훨씬 흥미로운 접근임
    모델이 토큰 수의 로그에 비례하는 동적 어텐션 전환을 수행할 수 있음
    이렇게 하면 텍스트로 표현된 레지스터와 스택을 추적하며 프로그램 실행을 흉내낼 수 있음
    만약 LLM이 ‘집중 모드’로 전환해 매우 빠르게 토큰을 생성할 수 있다면, 수많은 가설을 탐색하고 정리하는 추론 단계를 가속화할 수 있을 것임
    논문에서는 빠른 경로와 느린 경로를 결합한 하이브리드 구조나, 추측 실행(speculative execution) 모델로 활용 가능하다고 제안함

  • 처음엔 “왜 이런 걸 해야 하지?”라는 생각이었지만, 지금은 훈련 부트스트랩 관점에서 보게 됨
    예를 들어 80% 정확도의 전문가 시스템을 모델에 내장하고, 그 결과를 학습 데이터로 삼아 정확도를 높일 수 있음
    다양한 작업의 훈련 비용을 낮출수록 AI 경쟁의 진입 장벽이 낮아짐

    • 하지만 이 접근법은 훈련에는 부적합함
      softmax 어텐션과 달리 average-hard 어텐션은 키와 쿼리에 대해 미분 불가능함
      straight-through 추정으로 보정해도 역전파 속도는 향상되지 않음
    • 훈련은 어렵겠지만, 흥미로운 관련 연구로 이 논문을 참고할 만함
  • 인간의 뇌는 계산 능력이 뛰어나지 않음
    10자리 수 곱셈도 오래 걸림. 이런 계산은 논리 게이트가 훨씬 효율적으로 처리함
    그렇다면 LLM이 직접 계산하기보다 ALU 같은 외부 모듈을 호출하는 게 더 낫지 않을까 생각함

    • 하지만 내장 프로그램을 모델의 다른 가중치와 연결하면, 단순 계산을 넘어 다양한 고정 알고리즘을 통합할 수 있음
    • 또 이 접근은 모델에 기하학적 직관과 공간 추론 능력을 가르치는 메커니즘이 될 수 있음
    • 시도조차 하지 않으면 가능성을 알 수 없음. 결정적 계산을 신경망 내부에 통합하면 도구 호출 오버헤드를 줄일 수도 있음
  • AI가 작성한 듯한 문체지만, 핵심 메시지가 불분명함
    모델이 외부 시스템 대신 내부에서 프로그램을 실행하는 게 왜 좋은지, 속도·역전파·벤치마크 중 어떤 이점이 있는지 명확하지 않음

    • 단순히 “AI가 쓴 글 같다”는 비판보다는, 내용 자체를 논의해야 함
      일부는 상징 논리(symbolic logic)가 필수라고 믿지만, 이런 시도는 단순히 흥미로운 실험으로 볼 수 있음
    • 실제로 논문을 보면, 실행 추적이 순전파의 일부이기 때문에 미분 가능하며, 계산 자체를 통해 그래디언트를 전파할 수 있음
      이는 외부 도구 호출과 근본적으로 다름
      O(k + log n) 복잡도의 디코딩 비용을 가지며, Sudoku 같은 문제를 100% 정확도로 푼다면 충분히 의미 있음
      이런 방식을 MoE 스타일로 결합하거나, WASM 기반 VM 내장처럼 다양한 해석기를 실험해볼 수 있을 것임
    • 외부 도구 호출을 제거하면 보안성도 향상됨. 외부 도구가 손상될 위험이 사라짐
    • 모델이 실행 중에 코드를 작성하고 수정할 수 있다는 점이 핵심임. 인간의 “아하 모먼트” 와 유사한 동적 실행임
    • 문체의 반복은 일반 독자를 위한 설명일 수 있음. 인간도 종종 그런 실수를 함
  • 모델의 내부 계산 경로에 도구를 통합하는 아이디어가 해석 가능성 측면에서 매우 흥미로움
    단순한 Transformer로 이런 효율을 낼 수 있다는 점이 놀라움

  • 잠재력은 있지만, 현재 상태로는 실용성이 낮음
    가중치나 “컴파일러” 도구가 공개되지 않아 실험이 어려움
    그래도 사전 정의된 계산 프리미티브를 LLM에 내장하는 아이디어는 여전히 유용할 수 있음

    • 작은 프로그램을 Transformer 가중치에 하드코딩하려면 ALTA를 참고할 만함
    • “neurosymbolic garbage”라는 표현이 무엇을 의미하는지 궁금함
  • 이 문장이 핵심임:
    “실행 추적이 순전파의 일부이기 때문에, 계산 자체를 통해 그래디언트를 전파할 수 있음”
    즉, 외부 도구 호출과 달리 훈련 가능한 계산 기반이 됨

    • 하지만 실제로는 완전한 미분 가능 구조가 아니며, 논문에서도 근사적 방법만 제안함
      또 훈련 데이터나 손실 함수 설계가 불분명함
      다만 도구 호출이 배치 효율성을 깨뜨린다는 점에서, 내부 계산 서브넷을 통과시키면 대규모 효율 향상이 가능함
      다만 그 서브넷이 굳이 Transformer일 필요는 없고, GPU에 최적화된 비학습 레이어로도 충분할 것 같음
  • 논문이 핵심을 숨기고 있음
    어텐션 헤드 차원을 2로 제한하면, 로그 시간 복잡도로 토큰을 검색·갱신할 수 있음
    하지만 왜 이 전략이 “코드 토큰”에만 적용되는지 불분명함
    WASM을 타깃으로 삼은 것도 효율성 측면에서 의문임

    • 두 차원과 RoPE, hard-max 어텐션을 사용하면 상대 주소 지정을 단일 헤드로 구현할 수 있음
    • 그러나 논문은 수식이나 훈련 세부 정보가 부족하고, 비표준 용어를 사용함
      예를 들어 self-attention을 “lookup table”로 표현하는 건 부정확함
      코드 예시에서 d_model = 36, n_heads = 18로 2D per head를 구성했지만, 여전히 불명확함
  • Sudoku 솔버를 Transformer 가중치로 어떻게 컴파일했는지 구체적 설명이 없음
    직접 코드-투-웨이트 컴파일을 했는지, 아니면 학습으로 습득했는지 불명확함

    • 내 해석으로는, 단순한 가상 머신을 가중치에 내장하고, 그 위에서 WASM 런타임을 컴파일한 뒤 솔버를 실행한 것 같음
    • 실제로 논문에는 WASM 인터프리터를 학습했다고 명시되어 있음
  • 흥미롭지만, “왜 굳이 이렇게 해야 하는가”라는 의문이 남음
    인간의 뇌도 튜링 머신을 시뮬레이션할 수 있지만 느림. 그래서 외부 도구를 사용함
    모델도 마찬가지로 외부 도구를 쓰는 게 더 효율적이지 않을까 생각함

    • 논문은 Python 호출의 오버헤드를 줄이기 위해 WebAssembly 내장을 제안하지만, 이는 90년대의 프로세스 vs 스레드 논쟁과 유사함
      Elixir 같은 언어를 내장해 더 짧은 코드를 실행하는 것도 가능할 것임
    • “계산할 수 없는 시스템은 계산을 이해할 수 없다”는 철학적 주장도 흥미로움
      모델이 실행 중에 코드를 수정하거나 디버깅 능력을 가질 수 있다는 발상임
    • 다만 논문은 이런 가능성을 탐구하지 않고, 단순히 실행 엔진 수준에서 멈춤
    • 굳이 프로그램을 가중치로 컴파일할 거라면, 도구 호출 최적화가 더 합리적일 수도 있음
    • 또, 인간이 계산기를 뇌에 내장할 수 있다면 더 빠르고 효율적일 것이라는 비유도 가능함