18P by princox | ★ favorite | 댓글 8개
  • Claude Mythos의 구조를 가정해 “반복적으로 생각하는 트랜스포머” 형태로 구현한 오픈소스 프로젝트
  • OpenMythos는 Anthropic의 차세대 모델로 알려진 Claude Mythos를 바탕으로, 공개된 정보와 연구 아이디어를 조합해 구조를 재현
  • 실제 모델이 아니라, “이런 방식으로 동작할 가능성이 있다”는 가설을 코드로 구현한 프로젝트

핵심 아이디어

이 프로젝트의 핵심은 기존 LLM과 달리,
모델을 더 크게 만드는 대신 같은 구조를 여러 번 반복 실행하는 방식이다.

하나의 레이어를 여러 번 돌리면서 점진적으로 내부 상태를 업데이트하고,
그 과정에서 더 깊은 추론을 수행한다.

주요 구조

  • 동일한 트랜스포머 블록을 반복 실행하는 구조
  • 반복 과정에서 다른 전문가(MoE)가 선택적으로 활성화
  • 중간 결과를 외부 토큰으로 출력하지 않고 내부 상태에서 처리
  • 메모리 효율을 개선하기 위한 attention 구조 적용

기존 방식과 차이

일반적인 LLM은 토큰을 생성하면서 추론 과정을 드러내는 방식이라면,
이 구조는 내부에서 여러 번 계산을 반복한 뒤 최종 결과만 출력하는 방식에 가깝다.

즉, “말하면서 생각”이 아니라
“속으로 충분히 생각한 뒤 말하는 구조”를 지향한다.

의미

이 접근은 토큰 사용량 증가로 인한 비용 문제와도 연결된다.
추론을 내부 반복으로 처리하면 외부로 생성되는 토큰 수를 줄일 수 있기 때문이다.

또한 모델의 성능을 파라미터 수 증가가 아니라
추론 단계에서의 계산량 증가로 끌어올리는 방향이라는 점에서 새로운 흐름으로 볼 수 있다.

한계

실제 Claude Mythos의 구조와 동일하다는 보장은 없으며,
검증된 성능이나 대규모 실험 결과는 아직 부족하다.

한 줄 인사이트

  • 모델을 더 키우는 대신, 같은 모델을 반복 실행해 더 깊게 생각하게 만드는 방향이 차세대 LLM 설계가 될 수 있다

댓글과 토론

비추가 있으면 좋겠어요 긱뉴스에

있어요 ㅋㅋ

실제 Claude Mythos의 구조와 동일하다는 보장은 없으며,

그럼 전혀 역설계가 아니잖아;;

공개된 적도 없는데 역설계를 어떻게 한다는 건지...??

실제 모델이 아니라, “이런 방식으로 동작할 가능성이 있다”는 가설을 코드로 구현한 프로젝트..

왜 gpt 6 만들어서 이런 방식으로 동작할 가능성이 있따~하지ㅋㅋ

이분은 이슈되는거 있으면 매번 open* 이름 패턴으로 양산해서 인식이 썩 좋은 것 같진 않더라구요..

누군가 했더니 코인 플젝 수장인거 보고 고개를 끄덕였습니다..

어 그렇네요. 레포 리스트 보니 Open으로 시작하는 프로젝트가 몇 개 더 있네요..