HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 – 두 개의 게이밍 GPU로, 가중치 변경 없이

(dnhkng.github.io)

1P by GN⁺ 4달전 | ★ favorite | 댓글 1개

거대한 72B 파라미터 LLM의 중간 7개 레이어를 복제해 재조합함으로써, 어떤 학습도 없이 리더보드 1위를 달성한 사례
실험은 RTX 4090 두 장으로 수행되었으며, 모델의 가중치를 수정하지 않고 중간 레이어를 반복 실행하는 구조만 변경
수학 추론과 감정 추론(EQ) 두 가지 소규모 프록시 태스크를 통해 최적의 레이어 범위를 탐색
결과적으로 Qwen2-72B 기반 RYS-XLarge 모델이 평균 +2.61% 향상, 특히 MuSR +17.72%, MATH +8.16% 개선을 기록
이 접근은 LLM 내부의 ‘기능적 회로(circuit)’ 존재 가능성을 보여주며, 대규모 모델의 ‘신경해부학적 구조’ 연구로 이어짐

오픈 LLM 리더보드와 실험 배경

2024년 중반 HuggingFace의 Open LLM Leaderboard는 공개 가중치 모델들의 경쟁장이었음
- 평가 항목: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
저자는 새 모델 학습이나 파인튜닝 없이, 기존 모델의 중간 레이어 일부를 복제하는 방식으로 실험 수행
복제된 레이어는 모델의 ‘사고(thinking)’ 과정을 담당하는 부분으로 추정됨

단서 1 – Base64 대화 실험

LLM이 Base64로 인코딩된 질문을 이해하고 올바른 답을 Base64로 반환하는 현상을 관찰
입력 형식이 달라도 모델이 추론을 수행하는 점에서, 초기 레이어는 입력 해석(translation), 후기 레이어는 출력 변환(re-translation) 역할을 한다는 가설 제시
이에 따라 중간 레이어는 추상적 사고를 수행하는 영역일 가능성 제기

단서 2 – Goliath-120B 모델의 이상 구조

HuggingFace의 Goliath-120B는 두 개의 Llama-2 70B 모델을 교차 결합한 구조로, 후기 레이어 출력을 전기 레이어 입력으로 피드백
정상 학습 분포를 벗어난 구조임에도 모델이 작동함을 확인
이를 통해 레이어 간 표현이 상호 호환 가능하며, Transformer 내부 표현이 균질적(homogenous) 임을 시사

‘브레인 스캐너’ 구축

Qwen2-72B 모델의 모든 (i, j) 레이어 구간 조합(총 3,241개) 을 테스트하는 파이프라인 구축
각 조합에서 특정 레이어 구간을 두 번 통과시키는 방식으로 모델을 재구성
평가 기준은 세 가지 조건을 충족해야 함
- 출력 최소화 (속도 확보)
- 객관적 채점 가능성
- 인지적 독립성 (두 태스크가 동시에 향상될 경우 구조적 개선으로 간주)

프록시 태스크 설계

Hard Math Probe: 복잡한 산술 문제의 정답을 직접 추정
EQ-Bench Probe: 사회적 상황에서 감정 강도를 0~100으로 예측
두 태스크 모두 짧은 출력과 명확한 정답을 제공해 구조적 변화를 측정하기 적합

수학 채점 함수와 부분 정답 평가

LLM의 숫자 오류(자리수 누락, 전치 등)를 고려해 부분 일치 점수 계산 함수를 개발
짧은 답변을 패딩하고 상대 오차를 계산해 정답률을 연속 점수로 환산
이를 통해 미세한 성능 차이를 정량적으로 구분 가능

RYS-XLarge 모델의 구성

최적 조합은 (45, 52) 로, 45~51번 레이어를 한 번 더 반복
결과적으로 7개 중간 레이어 복제, 총 파라미터는 72B → 78B
가중치 변경 없이 구조만 수정, VRAM 추가 사용 없이 포인터 복제 방식으로 구현

리더보드 성과

항목	점수	기준 대비 향상
평균	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

5개 항목에서 향상, 평균 점수로 리더보드 1위 달성
개발 과정에서 리더보드 항목을 사용하지 않았기에 순수한 구조적 일반화 효과로 평가됨

Transformer의 ‘기능적 회로’ 발견

단일 레이어 반복은 효과가 없었으나, 연속된 블록 단위 반복에서만 성능 향상
이는 중간 레이어들이 독립적 반복 연산이 아닌, 다단계 연산 회로(circuit) 로 작동함을 의미
예: 46~52번 레이어는 하나의 ‘레시피’처럼 단계별 추론을 수행
- 전체 블록을 반복하면 추론을 한 번 더 수행하는 효과 발생

Heatmap 분석과 ‘LLM Neuroanatomy’

각 (i, j) 조합의 성능을 시각화한 히트맵은 fMRI와 유사한 패턴을 보임
수학 태스크에서는 중간 레이어 반복 시 향상, EQ 태스크에서는 다른 영역에서 향상
이는 Transformer 내부에 과제별 기능 회로가 존재함을 시사

잘못된 복제의 부작용

일부 조합은 모델이 비정상적 언어 반복, 망상적 출력을 보임
이는 특정 회로를 과도하게 확장한 결과로, ‘인공 뇌 손상’ 에 비유됨
예: 사회적 적절성 회로가 손상되어 비정상적 대화 패턴 발생

후속 연구와 파생 모델

RYS-XLarge를 기반으로 여러 연구자가 파인튜닝 및 ORPO 학습을 추가 수행
2026년 초 기준 리더보드 상위 4개 모델 모두 RYS 구조 기반 78B 모델
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys 등

구조적 확장과 의미

레이어 복제는 파인튜닝과 독립적이며 병행 가능
모델이 ‘무엇을 아는가’가 아니라 ‘어떻게 사고하는가’를 바꾸는 방법
대형 모델일수록 기능 영역이 분화되어 회로 단위 복제가 효과적
소형 모델은 인코딩·추론·디코딩 기능이 얽혀 있어 동일 효과가 제한적

향후 계획

Qwen, MiniMax, GLM 등 최신 모델에 동일 기법 적용 중
각 모델마다 고유한 ‘신경해부학적 구조’ 가 존재함을 확인
향후 코드 공개 및 RYS 시리즈 추가 배포 예정
저자는 “이제는 쥐 뇌 대신 인공 두뇌를 해부하고 있다”고 표현

결론

가중치 변경 없이 레이어 복제만으로 LLM 성능을 향상시킨 실험
Transformer 내부에 기능적 회로와 구조적 분화가 존재함을 실증
이는 모델 해석 가능성(mechanistic interpretability) 과 효율적 아키텍처 확장의 새로운 방향을 제시함

GN⁺ 4달전 [-]

Hacker News 의견들

포인트 대비 댓글 수가 이렇게 불균형한 게 놀라움
글의 내용이 정말 풍부하고, 기술적인 내용을 일반인도 이해할 수 있게 잘 풀어쓴 점이 인상적이었음
특히 “Goliath가 작동했다는 사실 자체가 놀랍다”는 부분이 핵심이라 생각함. 왜 더 많은 연구자들이 이걸 주목하지 않았는지 궁금함
또, 작성자가 생명공학에서 뇌를 연구하다가 어떻게 GPU 지하실(?)에서 AI를 다루게 되었는지도 흥미로움
- 예전 optogenetics나 CRISPR/Cas9 프로젝트들도 블로그에 올릴 예정임
  1. 다른 논문들(Solar10.7B 등)도 비슷한 시도를 했지만, 전체 transformer 스택을 복제하는 건 좋은 아이디어가 아님을 실험적으로 확인했음. ‘기관’을 중복 복제하는 셈이라 효율이 떨어짐
  2. 생물학 연구는 즐거웠지만 논문 심사와 연구비 신청이 맞지 않았음. 그래서 독립 연구자로 블로그를 시작했음. 언젠가 누군가 인용해주길 바람
- 고양이 뇌를 개 머리에 넣는 비유가 재밌었음. 사실 놀랍지 않다고 생각함
  CNN의 초기층 커널이 Gabor 필터로 수렴하는 것처럼, LLM의 내부 층도 에너지 효율·정보 압축·엔트로피 최적화 같은 보편적 수학적 최적화로 수렴한다고 봄
발견 과정을 자세히 보여준 점이 정말 좋았음. 결과보다 그 과정이 더 흥미로움
특히 추상적 추론을 중첩해 성능을 높이고, heatmap으로 확률 분포를 시각화한 부분이 인상적이었음
관련 논문들도 점점 따라잡는 중임
- SOLAR / DUS (Kim et al., 2023): transformer 층을 복제해 10.7B 모델을 만들었고, 30B 모델보다 성능이 좋았음
- The Curse of Depth (2025): Pre-LN 구조가 깊은 층을 identity function으로 수렴시켜, 중간층이 실제 계산을 담당함을 설명함
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): 단일 recurrent 블록을 반복 사용해 추론 깊이를 확장하는 접근을 제시함
- 칭찬 고마움!
  다만 SOLAR 같은 모델은 결국 한계에 부딪힐 것 같음. heatmap을 보면 transformer 스택이 처음엔 무작위 가중치에서 시작해, 학습 중에 점차 ‘기관’처럼 특화된 구조로 변함
  ‘token-to-thought’와 ‘thought-to-token’ 같은 기관은 하나씩만 존재해야 함. 결국 전문화된 구조가 항상 이길 것이라 생각함
“Goliath가 작동했다는 게 놀랍다”는 말에 공감함
예전에도 여러 모델을 합친 실험들이 있었는데, 대부분은 Reddit이나 Discord의 커뮤니티 실험 수준이었음. 학계나 기업 연구자들은 크게 주목하지 않았음
그래도 Llama와 Qwen 같은 완전히 다른 모델의 층을 섞어도 작동할 수 있을지 궁금함
또 LLM이 산술 문제에서 마지막 숫자를 빼먹거나 순서를 바꾸는 등 이상한 오류를 내는 이유도 흥미로움. 문법 파싱을 강제하면 개선될지 실험해보고 싶음
- 서로 다른 모델을 섞는 건 임베딩 크기나 어휘 차이 때문에 어렵다고 봄. 같은 구조라도 학습 데이터가 다르면 내부 표현이 달라질 수 있음. 그래도 실험해보면 재미있을 듯함
- 이런 주제는 취미 연구자들이 다루기 좋은 영역임. 기업은 기존 모델을 미세조정(fine-tune)하는 데 집중하니까
- 다중 자릿수 숫자는 가능한 토큰 조합이 많아 복잡함. 블로그의 코드가 부분 정답에서 유용한 지표를 추출하는 데 도움을 줌
LLM 내부에 인지적 공통 언어(cognitive lingua franca) 가 숨어 있을 수 있다는 생각이 흥미로움
이걸 이용해 플러그형 지식 뱅크를 만들 수 있을지도 모름.
필요한 지식만 꽂아 쓰는 슬림한 모델을 만들면, 전체 재학습 없이도 최신 지식을 유지할 수 있을 것임
- “지식 뱅크를 꽂는다”는 표현이 재밌음 — LLM: “...이제 나는 쿵푸를 안다”
- 미래의 LLM은 표준화된 인코딩/디코딩 레이어를 논리 레이어에 꽂는 구조가 될 수도 있음
- 이런 구조면 환각(hallucination) 도 줄어들 가능성이 있음
- 사실 이런 접근은 LoRA가 이미 하고 있는 일과 비슷하지 않을까 생각함
작성자가 말한 잠재 공간 추론(latent space reasoning) 이 정말 인상적이었음
단순히 층을 복제하는 것만으로 학습이 역전파된다는 점이 놀라움.
복제된 층을 반복(loop)시키면 성능이 어떻게 변할지도 궁금함. MoE 모델과 비교해보면, 각 층이 독립된 전문가처럼 작동하는지 확인할 수 있을 듯함
- 개별 층을 복제해봤지만 큰 효과는 없었음. 오히려 출력→입력 피드백은 대부분 해로움
  하지만 여러 구간에서 층을 다중 복제하고, XGBoost 기반 메타모델로 병합을 예측하는 실험은 흥미로웠음. MoE와도 잘 작동함
  다만 아내가 이 시간 낭비(?)를 좋아하진 않음
- LoopLM도 비슷한 아이디어를 다루는 듯함
LLM의 ‘뇌 수술’ 개념이 매혹적임. llama.cpp가 비전 모델을 지원하기 시작했을 때, projector에서 생성된 임베딩의 일부를 0으로 만들고 LLM에게 이미지를 설명하게 해봤음
그랬더니 실제로 없는 사람이나 배경을 만들어내는 등 놀라운 결과가 나왔음.
언젠가 벡터 차원과 의미 간의 상관관계를 체계적으로 실험해보고 싶음
- 지금은 해커로 살기 좋은 시대임
나도 중간층 활용에 대한 비슷한 직감을 가지고 있었음.
이 유튜브 영상을 보고 생각을 정리했는데, 층을 반복(loop)할수록 층의 순서가 고정될 필요가 없다는 결론에 도달했음
만약 반복 중 특정 층이 불필요하다면 건너뛰고, 필요한 층만 반복할 수 있다면, 결국 단일층 MOE 모델로 귀결될 수도 있음.
‘얼마나 깊이 생각할지’를 조절하는 추론 강도 노브 같은 개념도 가능함
- 흥미로운 아이디어임. 다만 층 순서를 완전히 무작위로 하면 조합 폭발 문제가 생길 수 있음
  그래도 transformer 블록 호출 순서를 랜덤화해 성능 변화를 실험해보면 흥미로울 것임
글을 읽으며 지식의 기하학적 구조에 공감했음.
다양한 분야를 넘나드는 제너럴리스트의 사고방식이 이런 신경 구조를 반영하는 것 같음.
덕분에 하루가 즐거워졌음
- 고마움
약 7개의 층 블록만 작동하고 그 이상이나 이하에서는 안 된다는 점이 흥미로움
이는 transformer 내부에 우리가 아직 이해하지 못한 기능적 단위(‘기관’) 가 존재함을 시사함
Qwen 외에 Llama나 Mistral 같은 다른 아키텍처에서도 같은 ‘7층 마법’ 이 나타나는지 궁금함
이 아이디어를 보면 두 가지 질문이 떠오름
1. 처음부터 이런 루프 구조로 모델을 학습해야 하는가?
2. 고정된 층 수를 사용하는 게 맞는가?
  만약 모델이 내부 층 변형에 이렇게 관대하다면, 모든 토큰에 모든 층을 돌릴 필요가 없음
  문제 난이도에 따라 반복 횟수를 조절하는 모델을 만들면, 쉬운 문제는 빠르게, 어려운 문제는 더 깊게 추론할 수 있을 것임
  학습 중 자신의 신뢰도(confidence) 를 예측해 추가 연산이 필요한지 판단하게 만들 수도 있음

답변달기

HuggingFace 오픈 LLM 리더보드 1위를 차지한 방법 – 두 개의 게이밍 GPU로, 가중치 변경 없이

오픈 LLM 리더보드와 실험 배경

단서 1 – Base64 대화 실험

단서 2 – Goliath-120B 모델의 이상 구조

‘브레인 스캐너’ 구축

프록시 태스크 설계

수학 채점 함수와 부분 정답 평가

RYS-XLarge 모델의 구성

리더보드 성과

Transformer의 ‘기능적 회로’ 발견

Heatmap 분석과 ‘LLM Neuroanatomy’

잘못된 복제의 부작용

후속 연구와 파생 모델

구조적 확장과 의미

향후 계획

결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들