# HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 – 두 개의 게이밍 GPU로, 가중치 변경 없이

> Clean Markdown view of GeekNews topic #27411. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27411](https://news.hada.io/topic?id=27411)
- GeekNews Markdown: [https://news.hada.io/topic/27411.md](https://news.hada.io/topic/27411.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-03-11T19:33:46+09:00
- Updated: 2026-03-11T19:33:46+09:00
- Original source: [dnhkng.github.io](https://dnhkng.github.io/posts/rys/)
- Points: 1
- Comments: 1

## Topic Body

- 거대한 **72B 파라미터 LLM의 중간 7개 레이어를 복제**해 재조합함으로써, 어떤 학습도 없이 리더보드 1위를 달성한 사례  
- 실험은 **RTX 4090 두 장**으로 수행되었으며, 모델의 가중치를 수정하지 않고 **중간 레이어를 반복 실행**하는 구조만 변경  
- 수학 추론과 감정 추론(EQ) 두 가지 **소규모 프록시 태스크**를 통해 최적의 레이어 범위를 탐색  
- 결과적으로 **Qwen2-72B 기반 RYS-XLarge 모델**이 평균 +2.61% 향상, 특히 MuSR +17.72%, MATH +8.16% 개선을 기록  
- 이 접근은 **LLM 내부의 ‘기능적 회로(circuit)’ 존재 가능성**을 보여주며, 대규모 모델의 **‘신경해부학적 구조’** 연구로 이어짐  

---

### 오픈 LLM 리더보드와 실험 배경
- 2024년 중반 HuggingFace의 **Open LLM Leaderboard**는 공개 가중치 모델들의 경쟁장이었음  
  - 평가 항목: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO  
- 저자는 **새 모델 학습이나 파인튜닝 없이**, 기존 모델의 **중간 레이어 일부를 복제**하는 방식으로 실험 수행  
- 복제된 레이어는 모델의 **‘사고(thinking)’ 과정**을 담당하는 부분으로 추정됨  

### 단서 1 – Base64 대화 실험
- LLM이 **Base64로 인코딩된 질문을 이해하고 올바른 답을 Base64로 반환**하는 현상을 관찰  
- 입력 형식이 달라도 모델이 추론을 수행하는 점에서, **초기 레이어는 입력 해석(translation)**, **후기 레이어는 출력 변환(re-translation)** 역할을 한다는 가설 제시  
- 이에 따라 **중간 레이어는 추상적 사고를 수행하는 영역**일 가능성 제기  

### 단서 2 – Goliath-120B 모델의 이상 구조
- HuggingFace의 **Goliath-120B**는 두 개의 Llama-2 70B 모델을 교차 결합한 구조로, **후기 레이어 출력을 전기 레이어 입력으로 피드백**  
- 정상 학습 분포를 벗어난 구조임에도 모델이 작동함을 확인  
- 이를 통해 **레이어 간 표현이 상호 호환 가능**하며, **Transformer 내부 표현이 균질적(homogenous)** 임을 시사  

### ‘브레인 스캐너’ 구축
- Qwen2-72B 모델의 **모든 (i, j) 레이어 구간 조합(총 3,241개)** 을 테스트하는 파이프라인 구축  
- 각 조합에서 특정 레이어 구간을 **두 번 통과**시키는 방식으로 모델을 재구성  
- 평가 기준은 세 가지 조건을 충족해야 함  
  - **출력 최소화** (속도 확보)  
  - **객관적 채점 가능성**  
  - **인지적 독립성** (두 태스크가 동시에 향상될 경우 구조적 개선으로 간주)  

### 프록시 태스크 설계
- **Hard Math Probe**: 복잡한 산술 문제의 정답을 직접 추정  
- **EQ-Bench Probe**: 사회적 상황에서 감정 강도를 0~100으로 예측  
- 두 태스크 모두 **짧은 출력과 명확한 정답**을 제공해 구조적 변화를 측정하기 적합  

### 수학 채점 함수와 부분 정답 평가
- LLM의 숫자 오류(자리수 누락, 전치 등)를 고려해 **부분 일치 점수 계산 함수**를 개발  
- 짧은 답변을 패딩하고 상대 오차를 계산해 **정답률을 연속 점수로 환산**  
- 이를 통해 미세한 성능 차이를 정량적으로 구분 가능  

### RYS-XLarge 모델의 구성
- 최적 조합은 **(45, 52)** 로, 45~51번 레이어를 한 번 더 반복  
- 결과적으로 **7개 중간 레이어 복제**, 총 파라미터는 72B → 78B  
- **가중치 변경 없이 구조만 수정**, VRAM 추가 사용 없이 포인터 복제 방식으로 구현  

### 리더보드 성과
| 항목 | 점수 | 기준 대비 향상 |
|------|------|----------------|
| 평균 | 44.75 | +2.61% |
| MATH Lvl 5 | 38.97 | +8.16% |
| MuSR | 23.72 | +17.72% |
| BBH | +2.51% |
| GPQA | +2.58% |
| IFEval | -2.05% |

- **5개 항목에서 향상**, 평균 점수로 리더보드 1위 달성  
- 개발 과정에서 리더보드 항목을 사용하지 않았기에 **순수한 구조적 일반화 효과**로 평가됨  

### Transformer의 ‘기능적 회로’ 발견
- 단일 레이어 반복은 효과가 없었으나, **연속된 블록 단위 반복**에서만 성능 향상  
- 이는 중간 레이어들이 **독립적 반복 연산이 아닌, 다단계 연산 회로(circuit)** 로 작동함을 의미  
- 예: 46~52번 레이어는 하나의 ‘레시피’처럼 단계별 추론을 수행  
  - 전체 블록을 반복하면 **추론을 한 번 더 수행하는 효과** 발생  

### Heatmap 분석과 ‘LLM Neuroanatomy’
- 각 (i, j) 조합의 성능을 시각화한 **히트맵은 fMRI와 유사한 패턴**을 보임  
- 수학 태스크에서는 중간 레이어 반복 시 향상, EQ 태스크에서는 다른 영역에서 향상  
- 이는 **Transformer 내부에 과제별 기능 회로가 존재**함을 시사  

### 잘못된 복제의 부작용
- 일부 조합은 모델이 **비정상적 언어 반복, 망상적 출력**을 보임  
- 이는 특정 회로를 과도하게 확장한 결과로, **‘인공 뇌 손상’** 에 비유됨  
- 예: 사회적 적절성 회로가 손상되어 비정상적 대화 패턴 발생  

### 후속 연구와 파생 모델
- RYS-XLarge를 기반으로 여러 연구자가 **파인튜닝 및 ORPO 학습**을 추가 수행  
- 2026년 초 기준 리더보드 상위 4개 모델 모두 **RYS 구조 기반 78B 모델**  
  - calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys 등  

### 구조적 확장과 의미
- 레이어 복제는 **파인튜닝과 독립적이며 병행 가능**  
- 모델이 ‘무엇을 아는가’가 아니라 **‘어떻게 사고하는가’를 바꾸는 방법**  
- 대형 모델일수록 **기능 영역이 분화되어 회로 단위 복제가 효과적**  
- 소형 모델은 인코딩·추론·디코딩 기능이 얽혀 있어 동일 효과가 제한적  

### 향후 계획
- Qwen, MiniMax, GLM 등 최신 모델에 동일 기법 적용 중  
- 각 모델마다 **고유한 ‘신경해부학적 구조’** 가 존재함을 확인  
- 향후 **코드 공개 및 RYS 시리즈 추가 배포 예정**  
- 저자는 “이제는 쥐 뇌 대신 인공 두뇌를 해부하고 있다”고 표현  

### 결론
- **가중치 변경 없이 레이어 복제만으로 LLM 성능을 향상**시킨 실험  
- Transformer 내부에 **기능적 회로와 구조적 분화**가 존재함을 실증  
- 이는 **모델 해석 가능성(mechanistic interpretability)** 과 **효율적 아키텍처 확장**의 새로운 방향을 제시함

## Comments


### Comment 52844

- Author: neo
- Created: 2026-03-11T19:33:46+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47322887) 
- 포인트 대비 댓글 수가 이렇게 **불균형**한 게 놀라움  
  글의 내용이 정말 풍부하고, 기술적인 내용을 일반인도 이해할 수 있게 잘 풀어쓴 점이 인상적이었음  
  특히 “Goliath가 작동했다는 사실 자체가 놀랍다”는 부분이 핵심이라 생각함. 왜 더 많은 연구자들이 이걸 주목하지 않았는지 궁금함  
  또, 작성자가 생명공학에서 뇌를 연구하다가 어떻게 GPU 지하실(?)에서 AI를 다루게 되었는지도 흥미로움
  - 예전 **optogenetics**나 **CRISPR/Cas9** 프로젝트들도 블로그에 올릴 예정임  
    1) 다른 논문들(Solar10.7B 등)도 비슷한 시도를 했지만, 전체 transformer 스택을 복제하는 건 좋은 아이디어가 아님을 실험적으로 확인했음. ‘기관’을 중복 복제하는 셈이라 효율이 떨어짐  
    2) 생물학 연구는 즐거웠지만 **논문 심사와 연구비 신청**이 맞지 않았음. 그래서 독립 연구자로 블로그를 시작했음. 언젠가 누군가 인용해주길 바람  
  - 고양이 뇌를 개 머리에 넣는 비유가 재밌었음. 사실 놀랍지 않다고 생각함  
    CNN의 초기층 커널이 **Gabor 필터**로 수렴하는 것처럼, LLM의 내부 층도 에너지 효율·정보 압축·엔트로피 최적화 같은 **보편적 수학적 최적화**로 수렴한다고 봄  

- 발견 과정을 자세히 보여준 점이 정말 좋았음. 결과보다 그 과정이 더 흥미로움  
  특히 **추상적 추론을 중첩**해 성능을 높이고, heatmap으로 확률 분포를 시각화한 부분이 인상적이었음  
  관련 논문들도 점점 따라잡는 중임  
  - [SOLAR / DUS (Kim et al., 2023)](https://arxiv.org/abs/2312.15166): transformer 층을 복제해 10.7B 모델을 만들었고, 30B 모델보다 성능이 좋았음  
  - [The Curse of Depth (2025)](https://arxiv.org/abs/2502.05795): Pre-LN 구조가 깊은 층을 **identity function**으로 수렴시켜, 중간층이 실제 계산을 담당함을 설명함  
  - [Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025)](https://arxiv.org/abs/2502.05171): 단일 recurrent 블록을 반복 사용해 **추론 깊이**를 확장하는 접근을 제시함
  - 칭찬 고마움!  
    다만 SOLAR 같은 모델은 결국 한계에 부딪힐 것 같음. heatmap을 보면 transformer 스택이 처음엔 무작위 가중치에서 시작해, 학습 중에 점차 **‘기관’처럼 특화된 구조**로 변함  
    ‘token-to-thought’와 ‘thought-to-token’ 같은 기관은 하나씩만 존재해야 함. 결국 **전문화된 구조**가 항상 이길 것이라 생각함  

- “Goliath가 작동했다는 게 놀랍다”는 말에 공감함  
  예전에도 여러 모델을 합친 실험들이 있었는데, 대부분은 Reddit이나 Discord의 **커뮤니티 실험** 수준이었음. 학계나 기업 연구자들은 크게 주목하지 않았음  
  그래도 Llama와 Qwen 같은 완전히 다른 모델의 층을 섞어도 작동할 수 있을지 궁금함  
  또 LLM이 산술 문제에서 마지막 숫자를 빼먹거나 순서를 바꾸는 등 이상한 오류를 내는 이유도 흥미로움. **문법 파싱**을 강제하면 개선될지 실험해보고 싶음
  - 서로 다른 모델을 섞는 건 **임베딩 크기**나 **어휘 차이** 때문에 어렵다고 봄. 같은 구조라도 학습 데이터가 다르면 내부 표현이 달라질 수 있음. 그래도 실험해보면 재미있을 듯함  
  - 이런 주제는 **취미 연구자**들이 다루기 좋은 영역임. 기업은 기존 모델을 미세조정(fine-tune)하는 데 집중하니까  
  - 다중 자릿수 숫자는 가능한 토큰 조합이 많아 복잡함. 블로그의 코드가 **부분 정답에서 유용한 지표**를 추출하는 데 도움을 줌  

- LLM 내부에 **인지적 공통 언어(cognitive lingua franca)** 가 숨어 있을 수 있다는 생각이 흥미로움  
  이걸 이용해 **플러그형 지식 뱅크**를 만들 수 있을지도 모름.  
  필요한 지식만 꽂아 쓰는 슬림한 모델을 만들면, 전체 재학습 없이도 최신 지식을 유지할 수 있을 것임
  - “지식 뱅크를 꽂는다”는 표현이 재밌음 — LLM: “...이제 나는 쿵푸를 안다”  
  - 미래의 LLM은 **표준화된 인코딩/디코딩 레이어**를 논리 레이어에 꽂는 구조가 될 수도 있음  
  - 이런 구조면 **환각(hallucination)** 도 줄어들 가능성이 있음  
  - 사실 이런 접근은 **LoRA**가 이미 하고 있는 일과 비슷하지 않을까 생각함  

- 작성자가 말한 **잠재 공간 추론(latent space reasoning)** 이 정말 인상적이었음  
  단순히 층을 복제하는 것만으로 학습이 역전파된다는 점이 놀라움.  
  복제된 층을 반복(loop)시키면 성능이 어떻게 변할지도 궁금함. MoE 모델과 비교해보면, 각 층이 독립된 전문가처럼 작동하는지 확인할 수 있을 듯함
  - 개별 층을 복제해봤지만 큰 효과는 없었음. 오히려 **출력→입력 피드백**은 대부분 해로움  
    하지만 여러 구간에서 층을 다중 복제하고, **XGBoost 기반 메타모델**로 병합을 예측하는 실험은 흥미로웠음. MoE와도 잘 작동함  
    다만 아내가 이 시간 낭비(?)를 좋아하진 않음  
  - [LoopLM](https://arxiv.org/abs/2510.25741)도 비슷한 아이디어를 다루는 듯함  

- LLM의 **‘뇌 수술’** 개념이 매혹적임. llama.cpp가 비전 모델을 지원하기 시작했을 때, projector에서 생성된 임베딩의 일부를 0으로 만들고 LLM에게 이미지를 설명하게 해봤음  
  그랬더니 실제로 없는 **사람이나 배경**을 만들어내는 등 놀라운 결과가 나왔음.  
  언젠가 벡터 차원과 의미 간의 상관관계를 체계적으로 실험해보고 싶음
  - 지금은 해커로 살기 좋은 시대임  

- 나도 **중간층 활용**에 대한 비슷한 직감을 가지고 있었음.  
  [이 유튜브 영상](https://www.youtube.com/watch?v=pDsTcrRVNc0)을 보고 생각을 정리했는데, 층을 반복(loop)할수록 층의 순서가 고정될 필요가 없다는 결론에 도달했음  
  만약 반복 중 특정 층이 불필요하다면 건너뛰고, 필요한 층만 반복할 수 있다면, 결국 **단일층 MOE 모델**로 귀결될 수도 있음.  
  ‘얼마나 깊이 생각할지’를 조절하는 **추론 강도 노브** 같은 개념도 가능함
  - 흥미로운 아이디어임. 다만 층 순서를 완전히 무작위로 하면 **조합 폭발** 문제가 생길 수 있음  
    그래도 transformer 블록 호출 순서를 랜덤화해 성능 변화를 실험해보면 흥미로울 것임  

- 글을 읽으며 **지식의 기하학적 구조**에 공감했음.  
  다양한 분야를 넘나드는 **제너럴리스트의 사고방식**이 이런 신경 구조를 반영하는 것 같음.  
  덕분에 하루가 즐거워졌음
  - 고마움  

- 약 7개의 층 블록만 작동하고 그 이상이나 이하에서는 안 된다는 점이 흥미로움  
  이는 transformer 내부에 우리가 아직 이해하지 못한 **기능적 단위(‘기관’)** 가 존재함을 시사함  
  Qwen 외에 Llama나 Mistral 같은 다른 아키텍처에서도 같은 **‘7층 마법’** 이 나타나는지 궁금함  

- 이 아이디어를 보면 두 가지 질문이 떠오름  
  1) 처음부터 이런 **루프 구조로 모델을 학습**해야 하는가?  
  2) **고정된 층 수**를 사용하는 게 맞는가?  
  만약 모델이 내부 층 변형에 이렇게 관대하다면, 모든 토큰에 모든 층을 돌릴 필요가 없음  
  문제 난이도에 따라 반복 횟수를 조절하는 모델을 만들면, 쉬운 문제는 빠르게, 어려운 문제는 더 깊게 추론할 수 있을 것임  
  학습 중 **자신의 신뢰도(confidence)** 를 예측해 추가 연산이 필요한지 판단하게 만들 수도 있음