▲crawler 3달전 | parent | ★ favorite | on: GLM-4.7-Flash 모델 공개(huggingface.co)30B A3B라서 그렇게 무겁진 않습니다. 30B라는 공간은 확보되어야 하지만, 일단 공간만 확보되면 액티브 파라미터는 3B라서 속도가 빠릅니다. 그래서 많이 쓰이는 레이어만 VRAM에 탑재하는 식으로 최적화 하는 방법도 봤던 거 같습니다.
30B A3B라서 그렇게 무겁진 않습니다.
30B라는 공간은 확보되어야 하지만, 일단 공간만 확보되면 액티브 파라미터는 3B라서 속도가 빠릅니다.
그래서 많이 쓰이는 레이어만 VRAM에 탑재하는 식으로 최적화 하는 방법도 봤던 거 같습니다.