작은 모델일수록 더 복잡한 것으로 보입니다. 인코딩, 추론, 디코딩 기능이 더 복잡하게 얽혀 전체 영역에 퍼져 있습니다. 여러 작업에 걸쳐 일반화되는 기능 중복 영역은 하나도 발견하지 못했지만, 분명히 한 가지 ' 능력 '을 강화하는 대신 다른 능력을 약화시킬 수 있다는 점은 분명했습니다. 하지만 모델이 커질수록 기능적 구조는 더욱 분리됩니다. 큰 모델은 일반화된 '사고' 회로를 개발할 수 있는 ' 공간 '이 더 많으며, 이것이 제 방법이 72B 모델에서 매우 효과적이었던 이유일 수 있습니다. 특정 임계점 이하의 매개변수에서는 ' 추론 피질 '이 뇌의 나머지 부분과 완전히 분화되지 않습니다.
이대로 라면 작은 모델과 큰 모델의 성능 차가 더 극단적으로 벌어질 수 있을 수도 있겠군요
이대로 라면 작은 모델과 큰 모델의 성능 차가 더 극단적으로 벌어질 수 있을 수도 있겠군요