1P by GN⁺ 18시간전 | ★ favorite | 댓글 1개
  • 거대한 72B 파라미터 LLM의 중간 7개 레이어를 복제해 재조합함으로써, 어떤 학습도 없이 리더보드 1위를 달성한 사례
  • 실험은 RTX 4090 두 장으로 수행되었으며, 모델의 가중치를 수정하지 않고 중간 레이어를 반복 실행하는 구조만 변경
  • 수학 추론과 감정 추론(EQ) 두 가지 소규모 프록시 태스크를 통해 최적의 레이어 범위를 탐색
  • 결과적으로 Qwen2-72B 기반 RYS-XLarge 모델이 평균 +2.61% 향상, 특히 MuSR +17.72%, MATH +8.16% 개선을 기록
  • 이 접근은 LLM 내부의 ‘기능적 회로(circuit)’ 존재 가능성을 보여주며, 대규모 모델의 ‘신경해부학적 구조’ 연구로 이어짐

오픈 LLM 리더보드와 실험 배경

  • 2024년 중반 HuggingFace의 Open LLM Leaderboard는 공개 가중치 모델들의 경쟁장이었음
    • 평가 항목: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
  • 저자는 새 모델 학습이나 파인튜닝 없이, 기존 모델의 중간 레이어 일부를 복제하는 방식으로 실험 수행
  • 복제된 레이어는 모델의 ‘사고(thinking)’ 과정을 담당하는 부분으로 추정됨

단서 1 – Base64 대화 실험

  • LLM이 Base64로 인코딩된 질문을 이해하고 올바른 답을 Base64로 반환하는 현상을 관찰
  • 입력 형식이 달라도 모델이 추론을 수행하는 점에서, 초기 레이어는 입력 해석(translation), 후기 레이어는 출력 변환(re-translation) 역할을 한다는 가설 제시
  • 이에 따라 중간 레이어는 추상적 사고를 수행하는 영역일 가능성 제기

단서 2 – Goliath-120B 모델의 이상 구조

  • HuggingFace의 Goliath-120B는 두 개의 Llama-2 70B 모델을 교차 결합한 구조로, 후기 레이어 출력을 전기 레이어 입력으로 피드백
  • 정상 학습 분포를 벗어난 구조임에도 모델이 작동함을 확인
  • 이를 통해 레이어 간 표현이 상호 호환 가능하며, Transformer 내부 표현이 균질적(homogenous) 임을 시사

‘브레인 스캐너’ 구축

  • Qwen2-72B 모델의 모든 (i, j) 레이어 구간 조합(총 3,241개) 을 테스트하는 파이프라인 구축
  • 각 조합에서 특정 레이어 구간을 두 번 통과시키는 방식으로 모델을 재구성
  • 평가 기준은 세 가지 조건을 충족해야 함
    • 출력 최소화 (속도 확보)
    • 객관적 채점 가능성
    • 인지적 독립성 (두 태스크가 동시에 향상될 경우 구조적 개선으로 간주)

프록시 태스크 설계

  • Hard Math Probe: 복잡한 산술 문제의 정답을 직접 추정
  • EQ-Bench Probe: 사회적 상황에서 감정 강도를 0~100으로 예측
  • 두 태스크 모두 짧은 출력과 명확한 정답을 제공해 구조적 변화를 측정하기 적합

수학 채점 함수와 부분 정답 평가

  • LLM의 숫자 오류(자리수 누락, 전치 등)를 고려해 부분 일치 점수 계산 함수를 개발
  • 짧은 답변을 패딩하고 상대 오차를 계산해 정답률을 연속 점수로 환산
  • 이를 통해 미세한 성능 차이를 정량적으로 구분 가능

RYS-XLarge 모델의 구성

  • 최적 조합은 (45, 52) 로, 45~51번 레이어를 한 번 더 반복
  • 결과적으로 7개 중간 레이어 복제, 총 파라미터는 72B → 78B
  • 가중치 변경 없이 구조만 수정, VRAM 추가 사용 없이 포인터 복제 방식으로 구현

리더보드 성과

항목 점수 기준 대비 향상
평균 44.75 +2.61%
MATH Lvl 5 38.97 +8.16%
MuSR 23.72 +17.72%
BBH +2.51%
GPQA +2.58%
IFEval -2.05%
  • 5개 항목에서 향상, 평균 점수로 리더보드 1위 달성
  • 개발 과정에서 리더보드 항목을 사용하지 않았기에 순수한 구조적 일반화 효과로 평가됨

Transformer의 ‘기능적 회로’ 발견

  • 단일 레이어 반복은 효과가 없었으나, 연속된 블록 단위 반복에서만 성능 향상
  • 이는 중간 레이어들이 독립적 반복 연산이 아닌, 다단계 연산 회로(circuit) 로 작동함을 의미
  • 예: 46~52번 레이어는 하나의 ‘레시피’처럼 단계별 추론을 수행
    • 전체 블록을 반복하면 추론을 한 번 더 수행하는 효과 발생

Heatmap 분석과 ‘LLM Neuroanatomy’

  • 각 (i, j) 조합의 성능을 시각화한 히트맵은 fMRI와 유사한 패턴을 보임
  • 수학 태스크에서는 중간 레이어 반복 시 향상, EQ 태스크에서는 다른 영역에서 향상
  • 이는 Transformer 내부에 과제별 기능 회로가 존재함을 시사

잘못된 복제의 부작용

  • 일부 조합은 모델이 비정상적 언어 반복, 망상적 출력을 보임
  • 이는 특정 회로를 과도하게 확장한 결과로, ‘인공 뇌 손상’ 에 비유됨
  • 예: 사회적 적절성 회로가 손상되어 비정상적 대화 패턴 발생

후속 연구와 파생 모델

  • RYS-XLarge를 기반으로 여러 연구자가 파인튜닝 및 ORPO 학습을 추가 수행
  • 2026년 초 기준 리더보드 상위 4개 모델 모두 RYS 구조 기반 78B 모델
    • calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys 등

구조적 확장과 의미

  • 레이어 복제는 파인튜닝과 독립적이며 병행 가능
  • 모델이 ‘무엇을 아는가’가 아니라 ‘어떻게 사고하는가’를 바꾸는 방법
  • 대형 모델일수록 기능 영역이 분화되어 회로 단위 복제가 효과적
  • 소형 모델은 인코딩·추론·디코딩 기능이 얽혀 있어 동일 효과가 제한적

향후 계획

  • Qwen, MiniMax, GLM 등 최신 모델에 동일 기법 적용 중
  • 각 모델마다 고유한 ‘신경해부학적 구조’ 가 존재함을 확인
  • 향후 코드 공개 및 RYS 시리즈 추가 배포 예정
  • 저자는 “이제는 쥐 뇌 대신 인공 두뇌를 해부하고 있다”고 표현

결론

  • 가중치 변경 없이 레이어 복제만으로 LLM 성능을 향상시킨 실험
  • Transformer 내부에 기능적 회로와 구조적 분화가 존재함을 실증
  • 이는 모델 해석 가능성(mechanistic interpretability)효율적 아키텍처 확장의 새로운 방향을 제시함
Hacker News 의견들
  • 포인트 대비 댓글 수가 이렇게 불균형한 게 놀라움
    글의 내용이 정말 풍부하고, 기술적인 내용을 일반인도 이해할 수 있게 잘 풀어쓴 점이 인상적이었음
    특히 “Goliath가 작동했다는 사실 자체가 놀랍다”는 부분이 핵심이라 생각함. 왜 더 많은 연구자들이 이걸 주목하지 않았는지 궁금함
    또, 작성자가 생명공학에서 뇌를 연구하다가 어떻게 GPU 지하실(?)에서 AI를 다루게 되었는지도 흥미로움

    • 예전 optogeneticsCRISPR/Cas9 프로젝트들도 블로그에 올릴 예정임
      1. 다른 논문들(Solar10.7B 등)도 비슷한 시도를 했지만, 전체 transformer 스택을 복제하는 건 좋은 아이디어가 아님을 실험적으로 확인했음. ‘기관’을 중복 복제하는 셈이라 효율이 떨어짐
      2. 생물학 연구는 즐거웠지만 논문 심사와 연구비 신청이 맞지 않았음. 그래서 독립 연구자로 블로그를 시작했음. 언젠가 누군가 인용해주길 바람
    • 고양이 뇌를 개 머리에 넣는 비유가 재밌었음. 사실 놀랍지 않다고 생각함
      CNN의 초기층 커널이 Gabor 필터로 수렴하는 것처럼, LLM의 내부 층도 에너지 효율·정보 압축·엔트로피 최적화 같은 보편적 수학적 최적화로 수렴한다고 봄
  • 발견 과정을 자세히 보여준 점이 정말 좋았음. 결과보다 그 과정이 더 흥미로움
    특히 추상적 추론을 중첩해 성능을 높이고, heatmap으로 확률 분포를 시각화한 부분이 인상적이었음
    관련 논문들도 점점 따라잡는 중임

    • SOLAR / DUS (Kim et al., 2023): transformer 층을 복제해 10.7B 모델을 만들었고, 30B 모델보다 성능이 좋았음
    • The Curse of Depth (2025): Pre-LN 구조가 깊은 층을 identity function으로 수렴시켜, 중간층이 실제 계산을 담당함을 설명함
    • Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): 단일 recurrent 블록을 반복 사용해 추론 깊이를 확장하는 접근을 제시함
    • 칭찬 고마움!
      다만 SOLAR 같은 모델은 결국 한계에 부딪힐 것 같음. heatmap을 보면 transformer 스택이 처음엔 무작위 가중치에서 시작해, 학습 중에 점차 ‘기관’처럼 특화된 구조로 변함
      ‘token-to-thought’와 ‘thought-to-token’ 같은 기관은 하나씩만 존재해야 함. 결국 전문화된 구조가 항상 이길 것이라 생각함
  • “Goliath가 작동했다는 게 놀랍다”는 말에 공감함
    예전에도 여러 모델을 합친 실험들이 있었는데, 대부분은 Reddit이나 Discord의 커뮤니티 실험 수준이었음. 학계나 기업 연구자들은 크게 주목하지 않았음
    그래도 Llama와 Qwen 같은 완전히 다른 모델의 층을 섞어도 작동할 수 있을지 궁금함
    또 LLM이 산술 문제에서 마지막 숫자를 빼먹거나 순서를 바꾸는 등 이상한 오류를 내는 이유도 흥미로움. 문법 파싱을 강제하면 개선될지 실험해보고 싶음

    • 서로 다른 모델을 섞는 건 임베딩 크기어휘 차이 때문에 어렵다고 봄. 같은 구조라도 학습 데이터가 다르면 내부 표현이 달라질 수 있음. 그래도 실험해보면 재미있을 듯함
    • 이런 주제는 취미 연구자들이 다루기 좋은 영역임. 기업은 기존 모델을 미세조정(fine-tune)하는 데 집중하니까
    • 다중 자릿수 숫자는 가능한 토큰 조합이 많아 복잡함. 블로그의 코드가 부분 정답에서 유용한 지표를 추출하는 데 도움을 줌
  • LLM 내부에 인지적 공통 언어(cognitive lingua franca) 가 숨어 있을 수 있다는 생각이 흥미로움
    이걸 이용해 플러그형 지식 뱅크를 만들 수 있을지도 모름.
    필요한 지식만 꽂아 쓰는 슬림한 모델을 만들면, 전체 재학습 없이도 최신 지식을 유지할 수 있을 것임

    • “지식 뱅크를 꽂는다”는 표현이 재밌음 — LLM: “...이제 나는 쿵푸를 안다”
    • 미래의 LLM은 표준화된 인코딩/디코딩 레이어를 논리 레이어에 꽂는 구조가 될 수도 있음
    • 이런 구조면 환각(hallucination) 도 줄어들 가능성이 있음
    • 사실 이런 접근은 LoRA가 이미 하고 있는 일과 비슷하지 않을까 생각함
  • 작성자가 말한 잠재 공간 추론(latent space reasoning) 이 정말 인상적이었음
    단순히 층을 복제하는 것만으로 학습이 역전파된다는 점이 놀라움.
    복제된 층을 반복(loop)시키면 성능이 어떻게 변할지도 궁금함. MoE 모델과 비교해보면, 각 층이 독립된 전문가처럼 작동하는지 확인할 수 있을 듯함

    • 개별 층을 복제해봤지만 큰 효과는 없었음. 오히려 출력→입력 피드백은 대부분 해로움
      하지만 여러 구간에서 층을 다중 복제하고, XGBoost 기반 메타모델로 병합을 예측하는 실험은 흥미로웠음. MoE와도 잘 작동함
      다만 아내가 이 시간 낭비(?)를 좋아하진 않음
    • LoopLM도 비슷한 아이디어를 다루는 듯함
  • LLM의 ‘뇌 수술’ 개념이 매혹적임. llama.cpp가 비전 모델을 지원하기 시작했을 때, projector에서 생성된 임베딩의 일부를 0으로 만들고 LLM에게 이미지를 설명하게 해봤음
    그랬더니 실제로 없는 사람이나 배경을 만들어내는 등 놀라운 결과가 나왔음.
    언젠가 벡터 차원과 의미 간의 상관관계를 체계적으로 실험해보고 싶음

    • 지금은 해커로 살기 좋은 시대임
  • 나도 중간층 활용에 대한 비슷한 직감을 가지고 있었음.
    이 유튜브 영상을 보고 생각을 정리했는데, 층을 반복(loop)할수록 층의 순서가 고정될 필요가 없다는 결론에 도달했음
    만약 반복 중 특정 층이 불필요하다면 건너뛰고, 필요한 층만 반복할 수 있다면, 결국 단일층 MOE 모델로 귀결될 수도 있음.
    ‘얼마나 깊이 생각할지’를 조절하는 추론 강도 노브 같은 개념도 가능함

    • 흥미로운 아이디어임. 다만 층 순서를 완전히 무작위로 하면 조합 폭발 문제가 생길 수 있음
      그래도 transformer 블록 호출 순서를 랜덤화해 성능 변화를 실험해보면 흥미로울 것임
  • 글을 읽으며 지식의 기하학적 구조에 공감했음.
    다양한 분야를 넘나드는 제너럴리스트의 사고방식이 이런 신경 구조를 반영하는 것 같음.
    덕분에 하루가 즐거워졌음

    • 고마움
  • 약 7개의 층 블록만 작동하고 그 이상이나 이하에서는 안 된다는 점이 흥미로움
    이는 transformer 내부에 우리가 아직 이해하지 못한 기능적 단위(‘기관’) 가 존재함을 시사함
    Qwen 외에 Llama나 Mistral 같은 다른 아키텍처에서도 같은 ‘7층 마법’ 이 나타나는지 궁금함

  • 이 아이디어를 보면 두 가지 질문이 떠오름

    1. 처음부터 이런 루프 구조로 모델을 학습해야 하는가?
    2. 고정된 층 수를 사용하는 게 맞는가?
      만약 모델이 내부 층 변형에 이렇게 관대하다면, 모든 토큰에 모든 층을 돌릴 필요가 없음
      문제 난이도에 따라 반복 횟수를 조절하는 모델을 만들면, 쉬운 문제는 빠르게, 어려운 문제는 더 깊게 추론할 수 있을 것임
      학습 중 자신의 신뢰도(confidence) 를 예측해 추가 연산이 필요한지 판단하게 만들 수도 있음