포인트 대비 댓글 수가 이렇게 불균형한 게 놀라움
글의 내용이 정말 풍부하고, 기술적인 내용을 일반인도 이해할 수 있게 잘 풀어쓴 점이 인상적이었음
특히 “Goliath가 작동했다는 사실 자체가 놀랍다”는 부분이 핵심이라 생각함. 왜 더 많은 연구자들이 이걸 주목하지 않았는지 궁금함
또, 작성자가 생명공학에서 뇌를 연구하다가 어떻게 GPU 지하실(?)에서 AI를 다루게 되었는지도 흥미로움
예전 optogenetics나 CRISPR/Cas9 프로젝트들도 블로그에 올릴 예정임
다른 논문들(Solar10.7B 등)도 비슷한 시도를 했지만, 전체 transformer 스택을 복제하는 건 좋은 아이디어가 아님을 실험적으로 확인했음. ‘기관’을 중복 복제하는 셈이라 효율이 떨어짐
생물학 연구는 즐거웠지만 논문 심사와 연구비 신청이 맞지 않았음. 그래서 독립 연구자로 블로그를 시작했음. 언젠가 누군가 인용해주길 바람
고양이 뇌를 개 머리에 넣는 비유가 재밌었음. 사실 놀랍지 않다고 생각함
CNN의 초기층 커널이 Gabor 필터로 수렴하는 것처럼, LLM의 내부 층도 에너지 효율·정보 압축·엔트로피 최적화 같은 보편적 수학적 최적화로 수렴한다고 봄
발견 과정을 자세히 보여준 점이 정말 좋았음. 결과보다 그 과정이 더 흥미로움
특히 추상적 추론을 중첩해 성능을 높이고, heatmap으로 확률 분포를 시각화한 부분이 인상적이었음
관련 논문들도 점점 따라잡는 중임
칭찬 고마움!
다만 SOLAR 같은 모델은 결국 한계에 부딪힐 것 같음. heatmap을 보면 transformer 스택이 처음엔 무작위 가중치에서 시작해, 학습 중에 점차 ‘기관’처럼 특화된 구조로 변함
‘token-to-thought’와 ‘thought-to-token’ 같은 기관은 하나씩만 존재해야 함. 결국 전문화된 구조가 항상 이길 것이라 생각함
“Goliath가 작동했다는 게 놀랍다”는 말에 공감함
예전에도 여러 모델을 합친 실험들이 있었는데, 대부분은 Reddit이나 Discord의 커뮤니티 실험 수준이었음. 학계나 기업 연구자들은 크게 주목하지 않았음
그래도 Llama와 Qwen 같은 완전히 다른 모델의 층을 섞어도 작동할 수 있을지 궁금함
또 LLM이 산술 문제에서 마지막 숫자를 빼먹거나 순서를 바꾸는 등 이상한 오류를 내는 이유도 흥미로움. 문법 파싱을 강제하면 개선될지 실험해보고 싶음
서로 다른 모델을 섞는 건 임베딩 크기나 어휘 차이 때문에 어렵다고 봄. 같은 구조라도 학습 데이터가 다르면 내부 표현이 달라질 수 있음. 그래도 실험해보면 재미있을 듯함
이런 주제는 취미 연구자들이 다루기 좋은 영역임. 기업은 기존 모델을 미세조정(fine-tune)하는 데 집중하니까
다중 자릿수 숫자는 가능한 토큰 조합이 많아 복잡함. 블로그의 코드가 부분 정답에서 유용한 지표를 추출하는 데 도움을 줌
LLM 내부에 인지적 공통 언어(cognitive lingua franca) 가 숨어 있을 수 있다는 생각이 흥미로움
이걸 이용해 플러그형 지식 뱅크를 만들 수 있을지도 모름.
필요한 지식만 꽂아 쓰는 슬림한 모델을 만들면, 전체 재학습 없이도 최신 지식을 유지할 수 있을 것임
“지식 뱅크를 꽂는다”는 표현이 재밌음 — LLM: “...이제 나는 쿵푸를 안다”
미래의 LLM은 표준화된 인코딩/디코딩 레이어를 논리 레이어에 꽂는 구조가 될 수도 있음
이런 구조면 환각(hallucination) 도 줄어들 가능성이 있음
사실 이런 접근은 LoRA가 이미 하고 있는 일과 비슷하지 않을까 생각함
작성자가 말한 잠재 공간 추론(latent space reasoning) 이 정말 인상적이었음
단순히 층을 복제하는 것만으로 학습이 역전파된다는 점이 놀라움.
복제된 층을 반복(loop)시키면 성능이 어떻게 변할지도 궁금함. MoE 모델과 비교해보면, 각 층이 독립된 전문가처럼 작동하는지 확인할 수 있을 듯함
개별 층을 복제해봤지만 큰 효과는 없었음. 오히려 출력→입력 피드백은 대부분 해로움
하지만 여러 구간에서 층을 다중 복제하고, XGBoost 기반 메타모델로 병합을 예측하는 실험은 흥미로웠음. MoE와도 잘 작동함
다만 아내가 이 시간 낭비(?)를 좋아하진 않음
LLM의 ‘뇌 수술’ 개념이 매혹적임. llama.cpp가 비전 모델을 지원하기 시작했을 때, projector에서 생성된 임베딩의 일부를 0으로 만들고 LLM에게 이미지를 설명하게 해봤음
그랬더니 실제로 없는 사람이나 배경을 만들어내는 등 놀라운 결과가 나왔음.
언젠가 벡터 차원과 의미 간의 상관관계를 체계적으로 실험해보고 싶음
지금은 해커로 살기 좋은 시대임
나도 중간층 활용에 대한 비슷한 직감을 가지고 있었음. 이 유튜브 영상을 보고 생각을 정리했는데, 층을 반복(loop)할수록 층의 순서가 고정될 필요가 없다는 결론에 도달했음
만약 반복 중 특정 층이 불필요하다면 건너뛰고, 필요한 층만 반복할 수 있다면, 결국 단일층 MOE 모델로 귀결될 수도 있음.
‘얼마나 깊이 생각할지’를 조절하는 추론 강도 노브 같은 개념도 가능함
흥미로운 아이디어임. 다만 층 순서를 완전히 무작위로 하면 조합 폭발 문제가 생길 수 있음
그래도 transformer 블록 호출 순서를 랜덤화해 성능 변화를 실험해보면 흥미로울 것임
글을 읽으며 지식의 기하학적 구조에 공감했음.
다양한 분야를 넘나드는 제너럴리스트의 사고방식이 이런 신경 구조를 반영하는 것 같음.
덕분에 하루가 즐거워졌음
고마움
약 7개의 층 블록만 작동하고 그 이상이나 이하에서는 안 된다는 점이 흥미로움
이는 transformer 내부에 우리가 아직 이해하지 못한 기능적 단위(‘기관’) 가 존재함을 시사함
Qwen 외에 Llama나 Mistral 같은 다른 아키텍처에서도 같은 ‘7층 마법’ 이 나타나는지 궁금함
이 아이디어를 보면 두 가지 질문이 떠오름
처음부터 이런 루프 구조로 모델을 학습해야 하는가?
고정된 층 수를 사용하는 게 맞는가?
만약 모델이 내부 층 변형에 이렇게 관대하다면, 모든 토큰에 모든 층을 돌릴 필요가 없음
문제 난이도에 따라 반복 횟수를 조절하는 모델을 만들면, 쉬운 문제는 빠르게, 어려운 문제는 더 깊게 추론할 수 있을 것임
학습 중 자신의 신뢰도(confidence) 를 예측해 추가 연산이 필요한지 판단하게 만들 수도 있음
Hacker News 의견들
포인트 대비 댓글 수가 이렇게 불균형한 게 놀라움
글의 내용이 정말 풍부하고, 기술적인 내용을 일반인도 이해할 수 있게 잘 풀어쓴 점이 인상적이었음
특히 “Goliath가 작동했다는 사실 자체가 놀랍다”는 부분이 핵심이라 생각함. 왜 더 많은 연구자들이 이걸 주목하지 않았는지 궁금함
또, 작성자가 생명공학에서 뇌를 연구하다가 어떻게 GPU 지하실(?)에서 AI를 다루게 되었는지도 흥미로움
CNN의 초기층 커널이 Gabor 필터로 수렴하는 것처럼, LLM의 내부 층도 에너지 효율·정보 압축·엔트로피 최적화 같은 보편적 수학적 최적화로 수렴한다고 봄
발견 과정을 자세히 보여준 점이 정말 좋았음. 결과보다 그 과정이 더 흥미로움
특히 추상적 추론을 중첩해 성능을 높이고, heatmap으로 확률 분포를 시각화한 부분이 인상적이었음
관련 논문들도 점점 따라잡는 중임
다만 SOLAR 같은 모델은 결국 한계에 부딪힐 것 같음. heatmap을 보면 transformer 스택이 처음엔 무작위 가중치에서 시작해, 학습 중에 점차 ‘기관’처럼 특화된 구조로 변함
‘token-to-thought’와 ‘thought-to-token’ 같은 기관은 하나씩만 존재해야 함. 결국 전문화된 구조가 항상 이길 것이라 생각함
“Goliath가 작동했다는 게 놀랍다”는 말에 공감함
예전에도 여러 모델을 합친 실험들이 있었는데, 대부분은 Reddit이나 Discord의 커뮤니티 실험 수준이었음. 학계나 기업 연구자들은 크게 주목하지 않았음
그래도 Llama와 Qwen 같은 완전히 다른 모델의 층을 섞어도 작동할 수 있을지 궁금함
또 LLM이 산술 문제에서 마지막 숫자를 빼먹거나 순서를 바꾸는 등 이상한 오류를 내는 이유도 흥미로움. 문법 파싱을 강제하면 개선될지 실험해보고 싶음
LLM 내부에 인지적 공통 언어(cognitive lingua franca) 가 숨어 있을 수 있다는 생각이 흥미로움
이걸 이용해 플러그형 지식 뱅크를 만들 수 있을지도 모름.
필요한 지식만 꽂아 쓰는 슬림한 모델을 만들면, 전체 재학습 없이도 최신 지식을 유지할 수 있을 것임
작성자가 말한 잠재 공간 추론(latent space reasoning) 이 정말 인상적이었음
단순히 층을 복제하는 것만으로 학습이 역전파된다는 점이 놀라움.
복제된 층을 반복(loop)시키면 성능이 어떻게 변할지도 궁금함. MoE 모델과 비교해보면, 각 층이 독립된 전문가처럼 작동하는지 확인할 수 있을 듯함
하지만 여러 구간에서 층을 다중 복제하고, XGBoost 기반 메타모델로 병합을 예측하는 실험은 흥미로웠음. MoE와도 잘 작동함
다만 아내가 이 시간 낭비(?)를 좋아하진 않음
LLM의 ‘뇌 수술’ 개념이 매혹적임. llama.cpp가 비전 모델을 지원하기 시작했을 때, projector에서 생성된 임베딩의 일부를 0으로 만들고 LLM에게 이미지를 설명하게 해봤음
그랬더니 실제로 없는 사람이나 배경을 만들어내는 등 놀라운 결과가 나왔음.
언젠가 벡터 차원과 의미 간의 상관관계를 체계적으로 실험해보고 싶음
나도 중간층 활용에 대한 비슷한 직감을 가지고 있었음.
이 유튜브 영상을 보고 생각을 정리했는데, 층을 반복(loop)할수록 층의 순서가 고정될 필요가 없다는 결론에 도달했음
만약 반복 중 특정 층이 불필요하다면 건너뛰고, 필요한 층만 반복할 수 있다면, 결국 단일층 MOE 모델로 귀결될 수도 있음.
‘얼마나 깊이 생각할지’를 조절하는 추론 강도 노브 같은 개념도 가능함
그래도 transformer 블록 호출 순서를 랜덤화해 성능 변화를 실험해보면 흥미로울 것임
글을 읽으며 지식의 기하학적 구조에 공감했음.
다양한 분야를 넘나드는 제너럴리스트의 사고방식이 이런 신경 구조를 반영하는 것 같음.
덕분에 하루가 즐거워졌음
약 7개의 층 블록만 작동하고 그 이상이나 이하에서는 안 된다는 점이 흥미로움
이는 transformer 내부에 우리가 아직 이해하지 못한 기능적 단위(‘기관’) 가 존재함을 시사함
Qwen 외에 Llama나 Mistral 같은 다른 아키텍처에서도 같은 ‘7층 마법’ 이 나타나는지 궁금함
이 아이디어를 보면 두 가지 질문이 떠오름
만약 모델이 내부 층 변형에 이렇게 관대하다면, 모든 토큰에 모든 층을 돌릴 필요가 없음
문제 난이도에 따라 반복 횟수를 조절하는 모델을 만들면, 쉬운 문제는 빠르게, 어려운 문제는 더 깊게 추론할 수 있을 것임
학습 중 자신의 신뢰도(confidence) 를 예측해 추가 연산이 필요한지 판단하게 만들 수도 있음