Hacker News 의견
  • Titans: Learning to Memorize at Test Time 논문을 소개함
    원문은 arXiv 링크에 있음

    • Google이 이런 수준으로 AI 연구를 공개하는 다른 회사가 있을까 궁금함
      관련 논문은 첫 번째, 두 번째 링크에서 볼 수 있음. Google이 이런 투명성으로 많은 신뢰를 받을 만하다고 생각함
      • DeepSeek 같은 중국 기업들도 활발히 연구를 공개하고 실제로 오픈 모델을 통해 검증함
        미국 대형 연구소의 논문은 실용 성능과 괴리된 경우가 많음. DeepSeek의 예시로 이 논문이 논문을 언급함
      • 논문 공개는 좋지만, 11개월이 지난 지금도 Titans 아키텍처의 모델 코드나 가중치를 다운로드할 수 없음
        Meta의 Llama, Qwen, DeepSeek이 훨씬 앞서 있음. 현재 가능한 건 비공식 구현체뿐임
      • Bytedance도 매우 적극적으로 논문을 내고 있음
        최근 인상 깊었던 건 lumine 프로젝트였고, 논문 링크공식 연구 페이지를 공유함
      • Meta 역시 연구를 공개적으로 공유하고 있으며, 최근에는 중국 기업들도 비슷한 흐름을 보임
      • 생태계의 80%는 이미 여러 기업과 개인이 공개한 연구 위에 세워져 있음
        Google만 특별히 더 많은 공로를 인정받을 이유는 없다고 생각함
  • “마침내 우리는 ‘Torment Nexus’를 만들었다”는 농담을 던짐
    Eclipse Phase 세계관에서 TITAN이 인류를 파괴한 AI 네트워크였다는 점을 언급함

  • Titans 아키텍처의 핵심은 내부 오류 신호(gradient) 를 통해 놀라움과 중요도를 판단하고, 그에 따라 장기 기억을 업데이트하는 것임
    이런 구조라면 무작위 노이즈 입력으로 모델을 교란시킬 수 있지 않을까 궁금함

    • Titans의 작동 원리를 단순화한 해석임
      모델은 추론 중에도 학습하며, 훈련 단계에서는 ‘무엇을 학습할지’를 학습함
      무의미한 입력은 낮은 surprise 임베딩을 부여받아 학습에 거의 반영되지 않음
    • 사실 어떤 AI든 무작위 입력으로 반응을 깨뜨릴 수 있음
    • 아마 연구진도 그 문제를 처음부터 인지했을 것이고, 표면적인 설명에서만 그런 오해가 생긴 것 같음
    • 인간의 감정 시스템(변연계) 처럼, AI도 감정 기반의 기억 메커니즘이 필요하다고 생각함
      인간은 새로움보다 감정적 강도에 따라 기억함. AI도 ‘무엇을 원한다’는 내적 상태가 있어야 함
    • 인간이 세뇌 환경에 갇히면 잘못된 정보를 반복하게 되는 것처럼, AI도 입력 스트림이 제한되면 비슷한 현상이 생길 수 있음
      하지만 코드베이스 개발처럼 맥락이 유지되는 환경에서는, 과거의 설계 결정과 토론 내용을 기억해 더 나은 판단을 내릴 수 있을 것임
  • Titans 논문을 처음 읽었을 때 “이건 큰 진전이 될 것”이라고 느꼈음
    AI 업계 종사자는 아니지만 오랫동안 인간형 사고 AI를 고민해왔음
    LLM은 그 기준에 한참 못 미쳤지만 Titans는 그 방향으로 한 걸음 나아간 듯함
    블로그에 이런 생각을 정리하고 싶지만, 알려진 인물이 아니라 관심을 받을지 확신이 없음
    그래도 Titans의 실제 구현이 나오면 모두 놀라게 될 것 같음

    • 블로그에 꾸준히 글을 올리면 결국 알려진 인물이 될 수 있음
    • 요즘 AI 글들은 세부 기술에만 매몰되는 경향이 있음
      큰 그림을 짚어주는 글이 오히려 유용한 통찰을 줄 수 있음
    • 이 글을 HN에 공유해 피드백을 받아보는 건 어떨지 제안함
  • Titans에 대해 이미 블로그 글을 쓴 적이 있음

    • 하지만 아직 사전 학습된 모델은 존재하지 않음
      Google의 주장 외에는 검증된 구현이 없고, 후속 연구도 거의 없는 상태임
  • Titans 구조가 프롬프트 인젝션에 더 취약하거나 덜 취약할지 궁금함
    실시간 학습이 방어력을 높일 수도 있지만, 반대로 악성 입력이 더 깊게 남을 수도 있음

  • Transformer의 attention 메커니즘 설명을 읽으며, Cursor 같은 IDE가 어떻게 메모리를 관리하는지 궁금했음
    코드베이스와 맥락을 점점 더 잘 이해하는 것 같음

    • 하지만 이 논문은 그런 IDE 메모리 관리와는 관련이 없음
      단순히 Transformer의 컨텍스트 윈도우 작동 방식을 설명하는 부분임
  • Titans를 LoRA처럼 계속 적응시키는 구조로 상상해도 될지 물음
    만약 그렇다면 LoRA를 메인 모델에 다시 병합하는 단계가 있을까? 그게 마치 수면 과정 같다고 표현함

    • LoRA는 보통 외부에서 덧붙이는 저차원 어댑터이므로 Titans와는 다름
      Titans에는 그런 저차원 구조가 없음
    • 이론적으로 LoRA를 사용할 수도 있지만 용량 한계 때문에 완전한 대체는 어려움
      대신 입력 청크를 처리하면서 MLP 전체를 학습하는 방식임
  • 놀라움 기반의 학습이 모델을 사용자 프롬프트에 더 정밀하게 정렬(alignment) 시키는 효과가 있을지 궁금함