안녕하세요, 고등학생 독립 연구로 진행한 첫 arXiv 논문입니다.
Paper | Code
핵심 아이디어:
LLM이 쉬운 입력과 어려운 입력에 동일한 연산을 쓰는 게 비효율적이라, TTT 레이어의 reconstruction loss를 신호로 UPDATE/SKIP을 결정합니다.
별도 학습 없이 threshold + EMA만으로 Oracle 대비 82-89% 성능을 달성했습니다.
JAX/Flax로 구현했고, 현재 Gemma 3로 스케일업 검증 중입니다.
피드백 환영합니다!