Google Titans 아키텍처, AI의 장기 기억 형성 지원

(research.google)

9P by GN⁺ 6달전 | ★ favorite | 댓글 1개

Titans 아키텍처와 MIRAS 프레임워크는 AI 모델이 실행 중에도 핵심 메모리를 갱신하며 방대한 문맥을 빠르게 처리하도록 설계됨
Titans는 RNN의 속도와 Transformer의 정확도를 결합해, 입력 중 ‘놀라움(surprise)’이 큰 정보를 장기 기억에 선택적으로 저장
MIRAS는 다양한 시퀀스 모델을 통합적으로 해석하는 이론적 설계도로, 메모리 구조·편향·망각·최적화 과정을 체계화
실험 결과, Titans와 MIRAS 변형 모델(YAAD, MONETA, MEMORA)은 Transformer++·Mamba-2 등 최신 모델보다 긴 문맥 처리와 효율성에서 우수한 성능을 보임
이 연구는 RNN의 효율성과 Transformer의 표현력을 결합한 새로운 세대의 장기 문맥 AI 모델로의 전환을 보여줌

Titans와 MIRAS 개요

Titans 아키텍처와 MIRAS 프레임워크는 AI가 실행 중 실시간으로 메모리를 갱신하며 대규모 문맥을 처리하도록 설계
- 기존 Transformer의 주의(attention) 메커니즘은 시퀀스 길이에 따라 계산 비용이 급증
- Titans와 MIRAS는 이러한 한계를 극복해 장기 문맥 이해와 실시간 적응을 가능하게 함
Titans는 구체적 모델 구조, MIRAS는 이를 일반화한 이론적 청사진 역할
- 두 시스템은 테스트 시점 기억(test-time memorization) 개념을 발전시켜, 재학습 없이 실행 중 새로운 정보를 통합

Titans: 실시간 문맥 학습

Titans는 단기 기억(주의 메커니즘) 과 장기 기억(신경망 기반 모듈) 을 분리해 인간의 기억 구조를 모방
- 장기 기억 모듈은 다층 퍼셉트론(MLP) 형태로, 고정 벡터 대신 심층 신경망을 사용해 더 풍부한 정보 요약 가능
핵심 개념은 ‘놀라움 지표(surprise metric)’
- 입력이 기존 기억과 크게 다를수록 높은 놀라움으로 간주되어 장기 기억에 저장
- 예: 예상된 단어(‘cat’)는 낮은 놀라움, 예상 밖 입력(‘banana peel’)은 높은 놀라움으로 처리
Titans는 모멘텀(momentum) 과 망각(weight decay) 메커니즘을 결합
- 모멘텀은 최근 맥락의 연속성을 반영해 관련 정보도 함께 저장
- 망각은 불필요한 정보를 제거해 메모리 용량을 효율적으로 유지

MIRAS: 시퀀스 모델의 통합적 관점

MIRAS는 모든 시퀀스 모델을 연상 기억(associative memory) 시스템으로 해석
- 다양한 모델이 결국 ‘새 정보와 기존 기억을 효율적으로 결합’하는 동일 문제를 해결한다고 정의
MIRAS는 네 가지 설계 요소로 모델을 정의
- 메모리 구조: 정보 저장 형태 (벡터, 행렬, MLP 등)
- 주의 편향: 모델이 어떤 정보를 우선시하는지 결정
- 보존 게이트(retention gate) : 망각을 조절하는 정규화 방식
- 메모리 알고리듬: 메모리 갱신 최적화 방법
기존 모델이 평균제곱오차(MSE) 나 내적 유사도에 의존하는 한계를 넘어, 비유클리드(non-Euclidean) 목적함수와 정규화를 탐색

MIRAS 기반 모델들

YAAD: Huber loss를 사용해 입력 오류나 이상치에 덜 민감한 구조
MONETA: 일반화된 노름(generalized norms)을 적용해 안정적 장기 기억 유지
MEMORA: 메모리를 확률 지도처럼 제약해 균형 잡힌 정보 통합 보장
세 모델 모두 주의(attention) 없이도 강력한 장기 기억 성능을 달성

실험 결과 및 성능

Titans와 MIRAS 변형 모델은 Transformer++ , Mamba-2, Gated DeltaNet 등 최신 구조와 비교 평가
- 언어 모델링(C4, WikiText) 과 제로샷 추론(HellaSwag, PIQA) 에서 더 높은 정확도와 낮은 perplexity 달성
- 유전체(DNA) 모델링과 시계열 예측에서도 일반화 성능 입증
기억 깊이(Depth) 가 성능에 결정적 영향
- 동일 크기의 메모리라도 깊은 구조일수록 낮은 perplexity와 더 나은 확장성 확보
효율성 측면에서, Titans는 병렬 학습과 선형 추론 속도를 유지하며 기존 모델보다 빠른 처리 가능
BABILong 벤치마크에서 GPT-4보다 적은 파라미터로도 긴 문맥 추론에서 우수한 성능
- 최대 200만 토큰 이상의 문맥 창을 효과적으로 처리

결론

Titans와 MIRAS는 고정 크기 순환 상태의 한계를 극복하고, 데이터 입력 중 실시간으로 학습하는 새로운 메모리 구조 제시
MIRAS는 온라인 최적화·연상 기억·아키텍처 설계를 통합하는 강력한 이론적 틀 제공
비유클리드적 설계 공간을 통해 RNN의 효율성과 Transformer의 표현력을 결합한 장기 문맥 AI 모델 시대를 여는 기반 마련

GN⁺ 6달전 [-]

Hacker News 의견

Titans: Learning to Memorize at Test Time 논문을 소개함
원문은 arXiv 링크에 있음
- Google이 이런 수준으로 AI 연구를 공개하는 다른 회사가 있을까 궁금함
  관련 논문은 첫 번째, 두 번째 링크에서 볼 수 있음. Google이 이런 투명성으로 많은 신뢰를 받을 만하다고 생각함
  - DeepSeek 같은 중국 기업들도 활발히 연구를 공개하고 실제로 오픈 모델을 통해 검증함
    미국 대형 연구소의 논문은 실용 성능과 괴리된 경우가 많음. DeepSeek의 예시로 이 논문과 이 논문을 언급함
  - 논문 공개는 좋지만, 11개월이 지난 지금도 Titans 아키텍처의 모델 코드나 가중치를 다운로드할 수 없음
    Meta의 Llama, Qwen, DeepSeek이 훨씬 앞서 있음. 현재 가능한 건 비공식 구현체뿐임
  - Bytedance도 매우 적극적으로 논문을 내고 있음
    최근 인상 깊었던 건 lumine 프로젝트였고, 논문 링크와 공식 연구 페이지를 공유함
  - Meta 역시 연구를 공개적으로 공유하고 있으며, 최근에는 중국 기업들도 비슷한 흐름을 보임
  - 생태계의 80%는 이미 여러 기업과 개인이 공개한 연구 위에 세워져 있음
    Google만 특별히 더 많은 공로를 인정받을 이유는 없다고 생각함
“마침내 우리는 ‘Torment Nexus’를 만들었다”는 농담을 던짐
Eclipse Phase 세계관에서 TITAN이 인류를 파괴한 AI 네트워크였다는 점을 언급함
Titans 아키텍처의 핵심은 내부 오류 신호(gradient) 를 통해 놀라움과 중요도를 판단하고, 그에 따라 장기 기억을 업데이트하는 것임
이런 구조라면 무작위 노이즈 입력으로 모델을 교란시킬 수 있지 않을까 궁금함
- Titans의 작동 원리를 단순화한 해석임
  모델은 추론 중에도 학습하며, 훈련 단계에서는 ‘무엇을 학습할지’를 학습함
  무의미한 입력은 낮은 surprise 임베딩을 부여받아 학습에 거의 반영되지 않음
- 사실 어떤 AI든 무작위 입력으로 반응을 깨뜨릴 수 있음
- 아마 연구진도 그 문제를 처음부터 인지했을 것이고, 표면적인 설명에서만 그런 오해가 생긴 것 같음
- 인간의 감정 시스템(변연계) 처럼, AI도 감정 기반의 기억 메커니즘이 필요하다고 생각함
  인간은 새로움보다 감정적 강도에 따라 기억함. AI도 ‘무엇을 원한다’는 내적 상태가 있어야 함
- 인간이 세뇌 환경에 갇히면 잘못된 정보를 반복하게 되는 것처럼, AI도 입력 스트림이 제한되면 비슷한 현상이 생길 수 있음
  하지만 코드베이스 개발처럼 맥락이 유지되는 환경에서는, 과거의 설계 결정과 토론 내용을 기억해 더 나은 판단을 내릴 수 있을 것임
Titans 논문을 처음 읽었을 때 “이건 큰 진전이 될 것”이라고 느꼈음
AI 업계 종사자는 아니지만 오랫동안 인간형 사고 AI를 고민해왔음
LLM은 그 기준에 한참 못 미쳤지만 Titans는 그 방향으로 한 걸음 나아간 듯함
블로그에 이런 생각을 정리하고 싶지만, 알려진 인물이 아니라 관심을 받을지 확신이 없음
그래도 Titans의 실제 구현이 나오면 모두 놀라게 될 것 같음
- 블로그에 꾸준히 글을 올리면 결국 알려진 인물이 될 수 있음
- 요즘 AI 글들은 세부 기술에만 매몰되는 경향이 있음
  큰 그림을 짚어주는 글이 오히려 유용한 통찰을 줄 수 있음
- 이 글을 HN에 공유해 피드백을 받아보는 건 어떨지 제안함
Titans에 대해 이미 블로그 글을 쓴 적이 있음
- 하지만 아직 사전 학습된 모델은 존재하지 않음
  Google의 주장 외에는 검증된 구현이 없고, 후속 연구도 거의 없는 상태임
Titans 구조가 프롬프트 인젝션에 더 취약하거나 덜 취약할지 궁금함
실시간 학습이 방어력을 높일 수도 있지만, 반대로 악성 입력이 더 깊게 남을 수도 있음
Transformer의 attention 메커니즘 설명을 읽으며, Cursor 같은 IDE가 어떻게 메모리를 관리하는지 궁금했음
코드베이스와 맥락을 점점 더 잘 이해하는 것 같음
- 하지만 이 논문은 그런 IDE 메모리 관리와는 관련이 없음
  단순히 Transformer의 컨텍스트 윈도우 작동 방식을 설명하는 부분임
Titans를 LoRA처럼 계속 적응시키는 구조로 상상해도 될지 물음
만약 그렇다면 LoRA를 메인 모델에 다시 병합하는 단계가 있을까? 그게 마치 수면 과정 같다고 표현함
- LoRA는 보통 외부에서 덧붙이는 저차원 어댑터이므로 Titans와는 다름
  Titans에는 그런 저차원 구조가 없음
- 이론적으로 LoRA를 사용할 수도 있지만 용량 한계 때문에 완전한 대체는 어려움
  대신 입력 청크를 처리하면서 MLP 전체를 학습하는 방식임
놀라움 기반의 학습이 모델을 사용자 프롬프트에 더 정밀하게 정렬(alignment) 시키는 효과가 있을지 궁금함

답변달기

Google Titans 아키텍처, AI의 장기 기억 형성 지원

Titans와 MIRAS 개요

Titans: 실시간 문맥 학습

MIRAS: 시퀀스 모델의 통합적 관점

MIRAS 기반 모델들

실험 결과 및 성능

결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견