2P by princox 4시간전 | ★ favorite | 댓글과 토론

한 줄 요약

👉 Claude Mythos의 구조를 가정해 “반복적으로 생각하는 트랜스포머” 형태로 구현한 오픈소스 프로젝트

무엇인가

OpenMythos는 Anthropic의 차세대 모델로 알려진 Claude Mythos를 바탕으로, 공개된 정보와 연구 아이디어를 조합해 구조를 재현하려는 시도다.

실제 모델이 아니라,
“이런 방식으로 동작할 가능성이 있다”는 가설을 코드로 구현한 프로젝트다.

핵심 아이디어

이 프로젝트의 핵심은 기존 LLM과 달리,
모델을 더 크게 만드는 대신 같은 구조를 여러 번 반복 실행하는 방식이다.

하나의 레이어를 여러 번 돌리면서 점진적으로 내부 상태를 업데이트하고,
그 과정에서 더 깊은 추론을 수행한다.

주요 구조

  • 동일한 트랜스포머 블록을 반복 실행하는 구조
  • 반복 과정에서 다른 전문가(MoE)가 선택적으로 활성화
  • 중간 결과를 외부 토큰으로 출력하지 않고 내부 상태에서 처리
  • 메모리 효율을 개선하기 위한 attention 구조 적용

기존 방식과 차이

일반적인 LLM은 토큰을 생성하면서 추론 과정을 드러내는 방식이라면,
이 구조는 내부에서 여러 번 계산을 반복한 뒤 최종 결과만 출력하는 방식에 가깝다.

즉, “말하면서 생각”이 아니라
“속으로 충분히 생각한 뒤 말하는 구조”를 지향한다.

의미

이 접근은 토큰 사용량 증가로 인한 비용 문제와도 연결된다.
추론을 내부 반복으로 처리하면 외부로 생성되는 토큰 수를 줄일 수 있기 때문이다.

또한 모델의 성능을 파라미터 수 증가가 아니라
추론 단계에서의 계산량 증가로 끌어올리는 방향이라는 점에서 새로운 흐름으로 볼 수 있다.

한계

실제 Claude Mythos의 구조와 동일하다는 보장은 없으며,
검증된 성능이나 대규모 실험 결과는 아직 부족하다.

한 줄 인사이트

👉 모델을 더 키우는 대신, 같은 모델을 반복 실행해 더 깊게 생각하게 만드는 방향이 차세대 LLM 설계가 될 수 있다