OpenMythos: 공개 연구로 복원한 Claude Mythos 아키텍처 가설인가, 또 다른 AI 하이프인가
(flamehaven.space)개요
- OpenMythos는 Claude Mythos와 유사한 구조를 공개 연구 기반으로 재구성하려는 이론적 아키텍처 실험(theoretical architecture experiment)으로 소개됨
- 글은 OpenMythos 자체를 단순한 “슬롭(slop)”으로 보지 않음
- 대신 OpenMythos를 사례로, AI 커뮤니티에서 README·AI 요약·YouTube/Reddit 확산·GitHub 스타가 검증보다 먼저 공개적 확신을 만드는 구조를 다룸
- 글은 이 현상을 “sheepwave”라고 부름
- 여기서 sheepwave는 무지나 단순 호기심이 아니라, 기술적으로 그럴듯하고 감정적으로 매력적인 이야기가 검증 전에 집단적 확신으로 굳어지는 현상을 뜻함
- 핵심 주장은 “OpenMythos가 흥미롭지 않다”가 아니라, 흥미로운 연구 아티팩트가 검증된 아키텍처 돌파구(architecture breakthrough)처럼 소비되는 방식이 문제라는 것임
OpenMythos가 무엇인가
- OpenMythos는 Anthropic의 Claude Mythos를 직접 복제하거나 유출한 모델이 아님
- 개발자는 OpenMythos를 Claude Mythos의 검증된 재구현이 아니라, 공개 연구 흐름을 조합한 이론적 아키텍처 실험이라고 말함.
- OpenMythos가 주목받은 이유는 Claude Mythos라는 이름이 이미 미스터리를 갖고 있었기 때문
- Claude Mythos의 전체 아키텍처가 공개되지 않았고, 커뮤니티는 “안에 무엇이 있는가?”라는 질문을 갖게 됨
- OpenMythos는 그 빈 공간에 “이런 구조일 수 있다”는 형태를 제공
- 온라인에서는 “공개 연구 기반의 추정적 반복 깊이 아키텍처 실험”보다 “Claude Mythos를 재구성했다”는 문장이 훨씬 빠르게 퍼짐
왜 OpenMythos가 빠르게 주목받았나
- OpenMythos는 AI 커뮤니티가 이미 믿고 싶어 하는 여러 기대를 동시에 건드림
- 파라미터 효율에 대한 기대
- 더 작은 반복 깊이 모델이 더 큰 고정 깊이 Transformer와 비슷한 품질에 도달할 수 있다는 이야기는 강한 메시지임
- “더 커지지 않고 더 깊어질 수 있다”는 서사는 GPU 비용과 frontier lab 중심 구조에 피로감을 느끼는 커뮤니티에 매력적으로 작동함
- 루프형 아키텍처
- 반복 계산은 시각적으로 “생각하는 것처럼” 보임
- 하지만 공유 가중치를 통한 반복 계산과 실제 추론 능력 또는 적응형 행동은 같은 말이 아님
- 개인용/소형 하드웨어에 대한 기대
- 반복 깊이 구조와 MLA 방식의 캐시 압축이 결합되면 작은 모델도 더 큰 모델처럼 느껴질 수 있다는 기대가 생김
- 그러나 실제로는 분기 처리 비용, 메모리 동작, 학습 안정성, 커널 효율, 의존성 정확성, 처리량 같은 엔지니어링 문제가 남음
- Claude Mythos라는 이름 자체
- Anthropic이 전체 구조를 공개하지 않은 상태에서 OpenMythos는 커뮤니티가 원하는 “형태”를 제공함
- MoE, MLA, LTI, ACT, 반복 깊이 구조 같은 최신 AI 아키텍처 키워드가 한 저장소에 모여 있었다는 점
- 이 때문에 OpenMythos는 빈 과열처럼 쉽게 무시하기 어려움
- 실제 아이디어가 있기 때문에 오히려 과열이 더 강해질 수 있음
Sheepwave의 작동 방식
- 글은 OpenMythos 주변 반응을 세 단계로 설명함
- 믿음 단계
- 사람들은 Claude Mythos, 오픈소스, 반복 깊이 구조, 파라미터 효율 같은 단서를 보고 먼저 가능성에 반응함
- 이 시점에서는 실제 학습 경로나 성능 재현 여부보다 “그럴듯한 가능성”이 먼저 소비됨
- 증폭 단계
- YouTube, Reddit, 뉴스레터, 소셜 글, AI 요약이 가장 강한 버전의 이야기를 반복함
- 이 단계에서는 벤치마크 재현이나 학습 경로 검증이 필요하지 않음
- 중요한 것은 “잘 퍼지는 이야기”임
- 코드 수준 의심 단계
-
코드 분석자는 저장소를 복제하고, 학습 스크립트, 라우터 경로, ACT 로직, MoE 분기 처리, 대형 문맥 설정 등을 확인함
-
하지만 이 단계는 보통 늦게 도착함
-
이 구조는 정보 비대칭 문제임
- “770M 모델이 1.3B급 성능을 낸다”는 한 줄은 빠르게 퍼짐
- 반면 “그 효율성 주장이 이 저장소에서 재현된 것인지, MoE 분기 처리가 대규모에서 버티는지, 라우터 편향값이 학습 스크립트에서 실제로 업데이트되는지”는 긴 코드 리뷰가 필요함
-
한 문장은 게시물이 되지만, 다른 문장은 리뷰가 필요함
-
그래서 대중적 기억에는 간단한 주장이 남고, 감사 결과는 늦은 각주(footnote)가 되기 쉬움
이번 Sheepwave가 다른 이유
-
이번 과열에는 AI 어시스턴트가 개입함
-
GitHub 링크를 AI에게 주면, AI는 README, 파일 구조, 아키텍처 용어, 그럴듯한 참조를 읽고 설득력 있는 요약을 만들 수 있음
-
이것은 유용하지만 검증은 아님
-
일반적인 채팅 환경의 AI 어시스턴트는 다음을 수행하지 않음
- 다중 GPU 학습 재현
- 벤치마크 곡선 재현
- 장기 학습에서 라우터 균형이 유지되는지 관찰
- MoE 처리량 측정
- 대형 문맥 설정의 초기화와 메모리 동작 확인
-
따라서 “AI도 놀랐다”는 반응은 실제 코드 검증이 아니라 README와 저장소 표면 구조에 대한 반응일 수 있음
-
글의 핵심 구분은 다음과 같음
- AI가 코드에 감탄한 경우가 있음
- AI가 README에 감탄한 경우도 있음
- 둘은 같은 것이 아님
-
이번 과열은 “행동하는 에이전트”에 대한 과열이 아니라 “생각하는 것처럼 보이는 아키텍처”에 대한 과열임
-
이런 아키텍처 과열은 극적인 데모 실패로 무너지기보다, 학습 경로, 벤치마크 재현, 손실 함수, 통합 상태, 실행 경로 같은 조용한 지점에서 약점이 드러남
소스 수준 감사 결과
-
글은 OpenMythos에 대한 소스 수준 감사 결과를 함께 제시함
-
이 감사는 모델 구현, 학습 스크립트, 변형 모델 설정, 토크나이저, 테스트, 의존성 파일, README 주장을 실제 코드 경로와 대조한 것임
-
감사 결과 OpenMythos는 빈 과열(Empty slop)이 아니라고 평가됨
-
실제 구현된 요소도 존재함
- Prelude + Recurrent Block + Coda 구조가 존재함
- LTI 방식의 반복 안정화는 강한 구현 요소 중 하나로 평가됨
- MLA 방식의 캐시 압축은 긴 문맥 처리 문제와 연결됨
- ACT 방식의 중단 로직도 존재함
- 반복 깊이 구조는 확장, 계산량 배분, 반복, 메모리, 라우팅 논의에 포함될 수 있음
-
하지만 대중적 서사가 암시한 수준의 운영 준비성과는 거리가 있음
감사에서 확인된 주요 차이
-
770M vs 1.3B 효율성 주장
- 저장소에서 재현된 결과가 아니라 외부 주장 또는 인용에 가까움
- 따라서 “결과가 아니라 인용”으로 보는 것이 적절함
-
MoE 라우팅
- 라우팅 로직은 존재하지만, 중첩된 Python 분기 처리가 있어 대규모 처리량 위험으로 봐야 함
- 이는 “무조건 불가능하다”는 단정이 아니라, 실제 프로파일링이 필요한 위험임
-
라우터 균형
- 라우터 편향 메커니즘은 노출되어 있지만, 배포된 학습 스크립트에서 명시적으로 업데이트되는 경로가 보이지 않음
- 장기 학습에서는 부하 균형 위험이 증가할 수 있음
-
ACT 중단 로직
- ACT 방식의 중단 로직은 존재함
- 그러나 배포된 학습 경로에는 명시적인 ponder loss나 계산량 정규화 항이 포함되어 있지 않음
- 중단 헤드는 언어 모델 손실을 통해 간접적으로 기울기를 받을 수 있지만, 효율적인 적응형 중단을 직접 장려하는 목적 함수는 없음
-
MoDA 모듈
- 별도 실험 파일로는 존재하지만, 주 모델에 통합된 것으로 보기는 어려움
-
대형 변형 모델
- 100B+ 또는 1M 문맥 설정은 즉시 RoPE 버퍼를 만드는 구조 때문에 실제 사용 가능한 설정이라기보다 목표 지향적 설정에 가까움
연구 라벨 문제
- OpenMythos는 운영 모델이 아니라 이론적 재구성(theoretical reconstruction) 또는 연구 아티팩트(research artifact)로 볼 수 있음
- 이 라벨 자체는 정당함
- 연구 프로젝트는 불완전한 학습 경로, 실험적 구조, 미완성 통합을 포함할 수 있음
- 문제는 연구 라벨과 대중적 과열이 서로 다른 언어로 작동한다는 점임
연구 라벨과 대중적 과열의 차이
-
연구 라벨: “이것은 이론적 실험이다”
- 대중적 과열: “AI의 미래를 바꿀 것이다”
-
연구 라벨: “공개 연구와 추정에 기반한 재구성이다”
- 대중적 과열: “누군가 Claude Mythos를 재구현했다”
-
연구 라벨: “탐구할 아키텍처다”
- 대중적 과열: “작은 모델이 이제 큰 모델처럼 생각할 수 있다”
-
글은 이 차이를 “프로젝트는 연구의 언어로 말하지만, 대중 반응은 그것을 도착의 언어로 번역한다”고 설명함
AI 저장소 평가를 위한 세 층
- 글은 AI 오픈소스 저장소를 평가할 때 세 층을 분리해야 한다고 봄
- 서사(Narrative)
- README, 해설 글, 소셜 게시물이 말하는 내용
- 메커니즘(Mechanism)
- 코드가 실제로 구현한 구조
- 운영 경로(Operational path)
-
학습 경로, 실행 경로, 평가 경로가 실제로 지원하는 능력
-
대부분의 AI 과열은 이 세 층을 하나로 합침
-
좋은 엔지니어링 실사는 이 세 층을 분리함
결론
- OpenMythos는 무시하거나 조롱할 대상이 아님
- OpenMythos는 유용하고 흥미로우며 기술적으로 시사점이 있는 연구 아티팩트임
- 하지만 이것이 아키텍처만으로 이미 규모의 한계를 이겼다는 증거는 아님
- README는 시작점이지 검증의 끝이 아님
- 글의 결론은 “README는 해안(shore)이 아니다. 코드 경로가 해안이다”로 요약됨
- 관련 글에는 전체 sheepwave 분석과 별도 OpenMythos v0.5.0 소스 수준 감사 리포트가 포함됨
https://flamehaven.space/writing/…