4P by devworld 2일전 | ★ favorite | 댓글 3개

안녕하세요, 고등학생 독립 연구로 진행한 첫 arXiv 논문입니다.

Paper | Code

핵심 아이디어:
LLM이 쉬운 입력과 어려운 입력에 동일한 연산을 쓰는 게 비효율적이라, TTT 레이어의 reconstruction loss를 신호로 UPDATE/SKIP을 결정합니다.
별도 학습 없이 threshold + EMA만으로 Oracle 대비 82-89% 성능을 달성했습니다.

JAX/Flax로 구현했고, 현재 Gemma 3로 스케일업 검증 중입니다.

피드백 환영합니다!

고등학생인데 멋지시네요. 보증인 문제는 어떻게 해결하셨어요?

선행 연구 진행하신 해외 박사님 교수님들께 콜드메일 열심히 보내서 받았습니다!

아 우문현답이십니다