Hacker News 의견들
  • 포인트 대비 댓글 수가 이렇게 불균형한 게 놀라움
    글의 내용이 정말 풍부하고, 기술적인 내용을 일반인도 이해할 수 있게 잘 풀어쓴 점이 인상적이었음
    특히 “Goliath가 작동했다는 사실 자체가 놀랍다”는 부분이 핵심이라 생각함. 왜 더 많은 연구자들이 이걸 주목하지 않았는지 궁금함
    또, 작성자가 생명공학에서 뇌를 연구하다가 어떻게 GPU 지하실(?)에서 AI를 다루게 되었는지도 흥미로움

    • 예전 optogeneticsCRISPR/Cas9 프로젝트들도 블로그에 올릴 예정임
      1. 다른 논문들(Solar10.7B 등)도 비슷한 시도를 했지만, 전체 transformer 스택을 복제하는 건 좋은 아이디어가 아님을 실험적으로 확인했음. ‘기관’을 중복 복제하는 셈이라 효율이 떨어짐
      2. 생물학 연구는 즐거웠지만 논문 심사와 연구비 신청이 맞지 않았음. 그래서 독립 연구자로 블로그를 시작했음. 언젠가 누군가 인용해주길 바람
    • 고양이 뇌를 개 머리에 넣는 비유가 재밌었음. 사실 놀랍지 않다고 생각함
      CNN의 초기층 커널이 Gabor 필터로 수렴하는 것처럼, LLM의 내부 층도 에너지 효율·정보 압축·엔트로피 최적화 같은 보편적 수학적 최적화로 수렴한다고 봄
  • 발견 과정을 자세히 보여준 점이 정말 좋았음. 결과보다 그 과정이 더 흥미로움
    특히 추상적 추론을 중첩해 성능을 높이고, heatmap으로 확률 분포를 시각화한 부분이 인상적이었음
    관련 논문들도 점점 따라잡는 중임

    • SOLAR / DUS (Kim et al., 2023): transformer 층을 복제해 10.7B 모델을 만들었고, 30B 모델보다 성능이 좋았음
    • The Curse of Depth (2025): Pre-LN 구조가 깊은 층을 identity function으로 수렴시켜, 중간층이 실제 계산을 담당함을 설명함
    • Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): 단일 recurrent 블록을 반복 사용해 추론 깊이를 확장하는 접근을 제시함
    • 칭찬 고마움!
      다만 SOLAR 같은 모델은 결국 한계에 부딪힐 것 같음. heatmap을 보면 transformer 스택이 처음엔 무작위 가중치에서 시작해, 학습 중에 점차 ‘기관’처럼 특화된 구조로 변함
      ‘token-to-thought’와 ‘thought-to-token’ 같은 기관은 하나씩만 존재해야 함. 결국 전문화된 구조가 항상 이길 것이라 생각함
  • “Goliath가 작동했다는 게 놀랍다”는 말에 공감함
    예전에도 여러 모델을 합친 실험들이 있었는데, 대부분은 Reddit이나 Discord의 커뮤니티 실험 수준이었음. 학계나 기업 연구자들은 크게 주목하지 않았음
    그래도 Llama와 Qwen 같은 완전히 다른 모델의 층을 섞어도 작동할 수 있을지 궁금함
    또 LLM이 산술 문제에서 마지막 숫자를 빼먹거나 순서를 바꾸는 등 이상한 오류를 내는 이유도 흥미로움. 문법 파싱을 강제하면 개선될지 실험해보고 싶음

    • 서로 다른 모델을 섞는 건 임베딩 크기어휘 차이 때문에 어렵다고 봄. 같은 구조라도 학습 데이터가 다르면 내부 표현이 달라질 수 있음. 그래도 실험해보면 재미있을 듯함
    • 이런 주제는 취미 연구자들이 다루기 좋은 영역임. 기업은 기존 모델을 미세조정(fine-tune)하는 데 집중하니까
    • 다중 자릿수 숫자는 가능한 토큰 조합이 많아 복잡함. 블로그의 코드가 부분 정답에서 유용한 지표를 추출하는 데 도움을 줌
  • LLM 내부에 인지적 공통 언어(cognitive lingua franca) 가 숨어 있을 수 있다는 생각이 흥미로움
    이걸 이용해 플러그형 지식 뱅크를 만들 수 있을지도 모름.
    필요한 지식만 꽂아 쓰는 슬림한 모델을 만들면, 전체 재학습 없이도 최신 지식을 유지할 수 있을 것임

    • “지식 뱅크를 꽂는다”는 표현이 재밌음 — LLM: “...이제 나는 쿵푸를 안다”
    • 미래의 LLM은 표준화된 인코딩/디코딩 레이어를 논리 레이어에 꽂는 구조가 될 수도 있음
    • 이런 구조면 환각(hallucination) 도 줄어들 가능성이 있음
    • 사실 이런 접근은 LoRA가 이미 하고 있는 일과 비슷하지 않을까 생각함
  • 작성자가 말한 잠재 공간 추론(latent space reasoning) 이 정말 인상적이었음
    단순히 층을 복제하는 것만으로 학습이 역전파된다는 점이 놀라움.
    복제된 층을 반복(loop)시키면 성능이 어떻게 변할지도 궁금함. MoE 모델과 비교해보면, 각 층이 독립된 전문가처럼 작동하는지 확인할 수 있을 듯함

    • 개별 층을 복제해봤지만 큰 효과는 없었음. 오히려 출력→입력 피드백은 대부분 해로움
      하지만 여러 구간에서 층을 다중 복제하고, XGBoost 기반 메타모델로 병합을 예측하는 실험은 흥미로웠음. MoE와도 잘 작동함
      다만 아내가 이 시간 낭비(?)를 좋아하진 않음
    • LoopLM도 비슷한 아이디어를 다루는 듯함
  • LLM의 ‘뇌 수술’ 개념이 매혹적임. llama.cpp가 비전 모델을 지원하기 시작했을 때, projector에서 생성된 임베딩의 일부를 0으로 만들고 LLM에게 이미지를 설명하게 해봤음
    그랬더니 실제로 없는 사람이나 배경을 만들어내는 등 놀라운 결과가 나왔음.
    언젠가 벡터 차원과 의미 간의 상관관계를 체계적으로 실험해보고 싶음

    • 지금은 해커로 살기 좋은 시대임
  • 나도 중간층 활용에 대한 비슷한 직감을 가지고 있었음.
    이 유튜브 영상을 보고 생각을 정리했는데, 층을 반복(loop)할수록 층의 순서가 고정될 필요가 없다는 결론에 도달했음
    만약 반복 중 특정 층이 불필요하다면 건너뛰고, 필요한 층만 반복할 수 있다면, 결국 단일층 MOE 모델로 귀결될 수도 있음.
    ‘얼마나 깊이 생각할지’를 조절하는 추론 강도 노브 같은 개념도 가능함

    • 흥미로운 아이디어임. 다만 층 순서를 완전히 무작위로 하면 조합 폭발 문제가 생길 수 있음
      그래도 transformer 블록 호출 순서를 랜덤화해 성능 변화를 실험해보면 흥미로울 것임
  • 글을 읽으며 지식의 기하학적 구조에 공감했음.
    다양한 분야를 넘나드는 제너럴리스트의 사고방식이 이런 신경 구조를 반영하는 것 같음.
    덕분에 하루가 즐거워졌음

    • 고마움
  • 약 7개의 층 블록만 작동하고 그 이상이나 이하에서는 안 된다는 점이 흥미로움
    이는 transformer 내부에 우리가 아직 이해하지 못한 기능적 단위(‘기관’) 가 존재함을 시사함
    Qwen 외에 Llama나 Mistral 같은 다른 아키텍처에서도 같은 ‘7층 마법’ 이 나타나는지 궁금함

  • 이 아이디어를 보면 두 가지 질문이 떠오름

    1. 처음부터 이런 루프 구조로 모델을 학습해야 하는가?
    2. 고정된 층 수를 사용하는 게 맞는가?
      만약 모델이 내부 층 변형에 이렇게 관대하다면, 모든 토큰에 모든 층을 돌릴 필요가 없음
      문제 난이도에 따라 반복 횟수를 조절하는 모델을 만들면, 쉬운 문제는 빠르게, 어려운 문제는 더 깊게 추론할 수 있을 것임
      학습 중 자신의 신뢰도(confidence) 를 예측해 추가 연산이 필요한지 판단하게 만들 수도 있음