# Qwen2-72B 중간 레이어 7개 복제로 리더보드 1위, 가중치는 단 하나도 안 건드리고

> Clean Markdown view of GeekNews topic #27406. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=27406](https://news.hada.io/topic?id=27406)
- GeekNews Markdown: [https://news.hada.io/topic/27406.md](https://news.hada.io/topic/27406.md)
- Type: news
- Author: [davespark](https://news.hada.io/@davespark)
- Published: 2026-03-11T14:17:43+09:00
- Updated: 2026-03-11T14:17:43+09:00
- Original source: [dnhkng.github.io](https://dnhkng.github.io/posts/rys/)
- Points: 11
- Comments: 1

## Summary

Qwen2-72B의 **중간 레이어 7개 구간을 한 번 더 반복 통과**시키는 단순한 구조 변경만으로, 가중치 수정 없이 리더보드 1위를 달성했습니다. RTX 4090 두 장으로 3천여 조합을 실험한 결과, 45~51번 레이어를 반복할 때 추론 관련 벤치마크 점수가 급상승했습니다. 이는 트랜스포머 내부에 기능별 **‘회로(circuit)’**가 존재한다는 가설을 뒷받침하며, 중간 레이어가 실제 사고 과정을 담당한다는 점을 실험적으로 보여줍니다.

## Topic Body

개발자 David Noel Ng가 Qwen2-72B 모델의 **중간 레이어 7개 구간만 반복 통과**시키는 아주 간단한 방법으로, 가중치·파인튜닝 전혀 없이 2024년 HuggingFace Open LLM 리더보드 1위를 찍음.  
  
**주요 포인트**  
- Qwen2-72B (총 80개 레이어)에서 특정 중간 구간(45~51번 레이어, 7개)을 한 번 더 통과시키는 식으로 모델을 수정  
→ 파라미터는 72B → 약 78B로 늘지만 **새로운 가중치는 0개** 추가  
  
- 벤치마크 결과  
  - MATH Lvl 5: +8.16%  
  - MuSR: +17.72%  
  - 6개 주요 벤치마크 중 5개에서 성능 상승 → 평균 점수로 리더보드 1위 기록  
  
**왜 효과가 있었나?**  
  
  - 트랜스포머 모델 내부에 기능별로 분화된 ‘**회로(circuit)**’가 존재한다는 가설 (**LLM Neuroanatomy**)  
  - 초반 레이어: 입력 인코딩  
  - 중간 레이어: 실제 추론·생각하는 부분 (수학, 감정 이해 등 특정 회로 존재)  
  - 후반 레이어: 출력 디코딩  
  → 중간의 추론 회로를 한 번 더 돌리면 그 기능이 강화됨  
  
**실험 방식**  
  RTX 4090 2장으로 3,241가지 레이어 구간 조합을 전수 조사 → 열지도(heatmap) 분석  
  → 특정 구간(45~52)만 반복하면 성능이 급상승하는 패턴 발견  
  
**추가 인사이트**  
  - 단일 레이어 반복 → 성능 하락  
  - 여러 레이어를 묶은 블록 반복 → 특정 기능 강화  
  - 이후 이 아이디어를 바탕으로 한 모델(RYS-XLarge → calme-3.2 등)이 2026년 초 리더보드 상위권을 차지하기도 함  
  
**결론**  
LLM은 단순히 레이어를 쌓은 게 아니라, **뇌처럼 기능적으로 분화된 회로**를 가지고 있다.  
이 회로를 찾아내서 반복 통과시키는 것만으로도 가중치 건드리지 않고 성능을 크게 끌어올릴 수 있다는 발견.  
  
https://aisparkup.com/posts/9997

## Comments


### Comment 52928

- Author: sygys10293
- Created: 2026-03-13T01:02:49+09:00
- Points: 1

> 작은 모델일수록 더 복잡한 것으로 보입니다. 인코딩, 추론, 디코딩 기능이 더 복잡하게 얽혀 전체 영역에 퍼져 있습니다. 여러 작업에 걸쳐 일반화되는 기능 중복 영역은 하나도 발견하지 못했지만, 분명히 한 가지 ' 능력 '을 강화하는 대신 다른 능력을 약화시킬 수 있다는 점은 분명했습니다. 하지만 모델이 커질수록 기능적 구조는 더욱 분리됩니다. 큰 모델은 일반화된 '사고' 회로를 개발할 수 있는 ' 공간 '이 더 많으며, 이것이 제 방법이 72B 모델에서 매우 효과적이었던 이유일 수 있습니다. 특정 임계점 이하의 매개변수에서는 ' 추론 피질 '이 뇌의 나머지 부분과 완전히 분화되지 않습니다.  
  
  
이대로 라면 작은 모델과 큰 모델의 성능 차가 더 극단적으로 벌어질 수 있을 수도 있겠군요