Google Titans 아키텍처, AI의 장기 기억 형성 지원
(research.google)- Titans 아키텍처와 MIRAS 프레임워크는 AI 모델이 실행 중에도 핵심 메모리를 갱신하며 방대한 문맥을 빠르게 처리하도록 설계됨
- Titans는 RNN의 속도와 Transformer의 정확도를 결합해, 입력 중 ‘놀라움(surprise)’이 큰 정보를 장기 기억에 선택적으로 저장
- MIRAS는 다양한 시퀀스 모델을 통합적으로 해석하는 이론적 설계도로, 메모리 구조·편향·망각·최적화 과정을 체계화
- 실험 결과, Titans와 MIRAS 변형 모델(YAAD, MONETA, MEMORA)은 Transformer++·Mamba-2 등 최신 모델보다 긴 문맥 처리와 효율성에서 우수한 성능을 보임
- 이 연구는 RNN의 효율성과 Transformer의 표현력을 결합한 새로운 세대의 장기 문맥 AI 모델로의 전환을 보여줌
Titans와 MIRAS 개요
-
Titans 아키텍처와 MIRAS 프레임워크는 AI가 실행 중 실시간으로 메모리를 갱신하며 대규모 문맥을 처리하도록 설계
- 기존 Transformer의 주의(attention) 메커니즘은 시퀀스 길이에 따라 계산 비용이 급증
- Titans와 MIRAS는 이러한 한계를 극복해 장기 문맥 이해와 실시간 적응을 가능하게 함
-
Titans는 구체적 모델 구조, MIRAS는 이를 일반화한 이론적 청사진 역할
- 두 시스템은 테스트 시점 기억(test-time memorization) 개념을 발전시켜, 재학습 없이 실행 중 새로운 정보를 통합
Titans: 실시간 문맥 학습
- Titans는 단기 기억(주의 메커니즘) 과 장기 기억(신경망 기반 모듈) 을 분리해 인간의 기억 구조를 모방
- 장기 기억 모듈은 다층 퍼셉트론(MLP) 형태로, 고정 벡터 대신 심층 신경망을 사용해 더 풍부한 정보 요약 가능
- 핵심 개념은 ‘놀라움 지표(surprise metric)’
- 입력이 기존 기억과 크게 다를수록 높은 놀라움으로 간주되어 장기 기억에 저장
- 예: 예상된 단어(‘cat’)는 낮은 놀라움, 예상 밖 입력(‘banana peel’)은 높은 놀라움으로 처리
- Titans는 모멘텀(momentum) 과 망각(weight decay) 메커니즘을 결합
- 모멘텀은 최근 맥락의 연속성을 반영해 관련 정보도 함께 저장
- 망각은 불필요한 정보를 제거해 메모리 용량을 효율적으로 유지
MIRAS: 시퀀스 모델의 통합적 관점
- MIRAS는 모든 시퀀스 모델을 연상 기억(associative memory) 시스템으로 해석
- 다양한 모델이 결국 ‘새 정보와 기존 기억을 효율적으로 결합’하는 동일 문제를 해결한다고 정의
- MIRAS는 네 가지 설계 요소로 모델을 정의
- 메모리 구조: 정보 저장 형태 (벡터, 행렬, MLP 등)
- 주의 편향: 모델이 어떤 정보를 우선시하는지 결정
- 보존 게이트(retention gate) : 망각을 조절하는 정규화 방식
- 메모리 알고리듬: 메모리 갱신 최적화 방법
- 기존 모델이 평균제곱오차(MSE) 나 내적 유사도에 의존하는 한계를 넘어, 비유클리드(non-Euclidean) 목적함수와 정규화를 탐색
MIRAS 기반 모델들
- YAAD: Huber loss를 사용해 입력 오류나 이상치에 덜 민감한 구조
- MONETA: 일반화된 노름(generalized norms)을 적용해 안정적 장기 기억 유지
- MEMORA: 메모리를 확률 지도처럼 제약해 균형 잡힌 정보 통합 보장
- 세 모델 모두 주의(attention) 없이도 강력한 장기 기억 성능을 달성
실험 결과 및 성능
- Titans와 MIRAS 변형 모델은 Transformer++ , Mamba-2, Gated DeltaNet 등 최신 구조와 비교 평가
- 언어 모델링(C4, WikiText) 과 제로샷 추론(HellaSwag, PIQA) 에서 더 높은 정확도와 낮은 perplexity 달성
- 유전체(DNA) 모델링과 시계열 예측에서도 일반화 성능 입증
-
기억 깊이(Depth) 가 성능에 결정적 영향
- 동일 크기의 메모리라도 깊은 구조일수록 낮은 perplexity와 더 나은 확장성 확보
- 효율성 측면에서, Titans는 병렬 학습과 선형 추론 속도를 유지하며 기존 모델보다 빠른 처리 가능
-
BABILong 벤치마크에서 GPT-4보다 적은 파라미터로도 긴 문맥 추론에서 우수한 성능
- 최대 200만 토큰 이상의 문맥 창을 효과적으로 처리
결론
- Titans와 MIRAS는 고정 크기 순환 상태의 한계를 극복하고, 데이터 입력 중 실시간으로 학습하는 새로운 메모리 구조 제시
- MIRAS는 온라인 최적화·연상 기억·아키텍처 설계를 통합하는 강력한 이론적 틀 제공
- 비유클리드적 설계 공간을 통해 RNN의 효율성과 Transformer의 표현력을 결합한 장기 문맥 AI 모델 시대를 여는 기반 마련
Hacker News 의견
-
Titans: Learning to Memorize at Test Time 논문을 소개함
원문은 arXiv 링크에 있음- Google이 이런 수준으로 AI 연구를 공개하는 다른 회사가 있을까 궁금함
관련 논문은 첫 번째, 두 번째 링크에서 볼 수 있음. Google이 이런 투명성으로 많은 신뢰를 받을 만하다고 생각함- DeepSeek 같은 중국 기업들도 활발히 연구를 공개하고 실제로 오픈 모델을 통해 검증함
미국 대형 연구소의 논문은 실용 성능과 괴리된 경우가 많음. DeepSeek의 예시로 이 논문과 이 논문을 언급함 - 논문 공개는 좋지만, 11개월이 지난 지금도 Titans 아키텍처의 모델 코드나 가중치를 다운로드할 수 없음
Meta의 Llama, Qwen, DeepSeek이 훨씬 앞서 있음. 현재 가능한 건 비공식 구현체뿐임 - Bytedance도 매우 적극적으로 논문을 내고 있음
최근 인상 깊었던 건 lumine 프로젝트였고, 논문 링크와 공식 연구 페이지를 공유함 - Meta 역시 연구를 공개적으로 공유하고 있으며, 최근에는 중국 기업들도 비슷한 흐름을 보임
- 생태계의 80%는 이미 여러 기업과 개인이 공개한 연구 위에 세워져 있음
Google만 특별히 더 많은 공로를 인정받을 이유는 없다고 생각함
- DeepSeek 같은 중국 기업들도 활발히 연구를 공개하고 실제로 오픈 모델을 통해 검증함
- Google이 이런 수준으로 AI 연구를 공개하는 다른 회사가 있을까 궁금함
-
“마침내 우리는 ‘Torment Nexus’를 만들었다”는 농담을 던짐
Eclipse Phase 세계관에서 TITAN이 인류를 파괴한 AI 네트워크였다는 점을 언급함 -
Titans 아키텍처의 핵심은 내부 오류 신호(gradient) 를 통해 놀라움과 중요도를 판단하고, 그에 따라 장기 기억을 업데이트하는 것임
이런 구조라면 무작위 노이즈 입력으로 모델을 교란시킬 수 있지 않을까 궁금함- Titans의 작동 원리를 단순화한 해석임
모델은 추론 중에도 학습하며, 훈련 단계에서는 ‘무엇을 학습할지’를 학습함
무의미한 입력은 낮은 surprise 임베딩을 부여받아 학습에 거의 반영되지 않음 - 사실 어떤 AI든 무작위 입력으로 반응을 깨뜨릴 수 있음
- 아마 연구진도 그 문제를 처음부터 인지했을 것이고, 표면적인 설명에서만 그런 오해가 생긴 것 같음
- 인간의 감정 시스템(변연계) 처럼, AI도 감정 기반의 기억 메커니즘이 필요하다고 생각함
인간은 새로움보다 감정적 강도에 따라 기억함. AI도 ‘무엇을 원한다’는 내적 상태가 있어야 함 - 인간이 세뇌 환경에 갇히면 잘못된 정보를 반복하게 되는 것처럼, AI도 입력 스트림이 제한되면 비슷한 현상이 생길 수 있음
하지만 코드베이스 개발처럼 맥락이 유지되는 환경에서는, 과거의 설계 결정과 토론 내용을 기억해 더 나은 판단을 내릴 수 있을 것임
- Titans의 작동 원리를 단순화한 해석임
-
Titans 논문을 처음 읽었을 때 “이건 큰 진전이 될 것”이라고 느꼈음
AI 업계 종사자는 아니지만 오랫동안 인간형 사고 AI를 고민해왔음
LLM은 그 기준에 한참 못 미쳤지만 Titans는 그 방향으로 한 걸음 나아간 듯함
블로그에 이런 생각을 정리하고 싶지만, 알려진 인물이 아니라 관심을 받을지 확신이 없음
그래도 Titans의 실제 구현이 나오면 모두 놀라게 될 것 같음- 블로그에 꾸준히 글을 올리면 결국 알려진 인물이 될 수 있음
- 요즘 AI 글들은 세부 기술에만 매몰되는 경향이 있음
큰 그림을 짚어주는 글이 오히려 유용한 통찰을 줄 수 있음 - 이 글을 HN에 공유해 피드백을 받아보는 건 어떨지 제안함
-
Titans에 대해 이미 블로그 글을 쓴 적이 있음
- 하지만 아직 사전 학습된 모델은 존재하지 않음
Google의 주장 외에는 검증된 구현이 없고, 후속 연구도 거의 없는 상태임
- 하지만 아직 사전 학습된 모델은 존재하지 않음
-
Titans 구조가 프롬프트 인젝션에 더 취약하거나 덜 취약할지 궁금함
실시간 학습이 방어력을 높일 수도 있지만, 반대로 악성 입력이 더 깊게 남을 수도 있음 -
Transformer의 attention 메커니즘 설명을 읽으며, Cursor 같은 IDE가 어떻게 메모리를 관리하는지 궁금했음
코드베이스와 맥락을 점점 더 잘 이해하는 것 같음- 하지만 이 논문은 그런 IDE 메모리 관리와는 관련이 없음
단순히 Transformer의 컨텍스트 윈도우 작동 방식을 설명하는 부분임
- 하지만 이 논문은 그런 IDE 메모리 관리와는 관련이 없음
-
Titans를 LoRA처럼 계속 적응시키는 구조로 상상해도 될지 물음
만약 그렇다면 LoRA를 메인 모델에 다시 병합하는 단계가 있을까? 그게 마치 수면 과정 같다고 표현함- LoRA는 보통 외부에서 덧붙이는 저차원 어댑터이므로 Titans와는 다름
Titans에는 그런 저차원 구조가 없음 - 이론적으로 LoRA를 사용할 수도 있지만 용량 한계 때문에 완전한 대체는 어려움
대신 입력 청크를 처리하면서 MLP 전체를 학습하는 방식임
- LoRA는 보통 외부에서 덧붙이는 저차원 어댑터이므로 Titans와는 다름
-
놀라움 기반의 학습이 모델을 사용자 프롬프트에 더 정밀하게 정렬(alignment) 시키는 효과가 있을지 궁금함