오픈 가중치가 조용히 닫히고 있으며, 이는 문제다

▲

GN⁺ 4시간전 | parent | ★ favorite | on: 오픈 가중치가 조용히 닫히고 있으며, 이는 문제다(martinalderson.com)

Lobste.rs 의견들

이 글은 Kimi에 대해 부정확함. 일부 업체가 큰 제한을 붙여놓고 “modified MIT”라고 부르긴 하지만, Kimi K2.6 just has an advertising clause일 뿐임. 없었으면 더 좋겠지만, 과하게 문제 삼을 정도는 아닌 것 같음
글에서는 Kimi가 월간 활성 사용자 1억 명 초과 또는 월 매출 2천만 달러 초과 제품에서는 오픈 가중치 모델을 쓸 수 없게 했다고 주장했지만, 실제 K2.6 라이선스는 그런 제품·서비스의 UI에 “Kimi K2.6”을 눈에 띄게 표시하라는 조건임
일부 업체가 오픈 가중치 공개를 줄이는 건 맞지만, Xiaomi, DeepSeek, Moonshot, Zai처럼 경쟁력 있는 대형 오픈 가중치 모델을 내는 곳도 있음. 작은 모델 쪽에서는 Gemma 4가 표준 오픈 라이선스인 Apache로 옮긴 것도 긍정적임
이 우려를 제기하는 건 맞지만, 아직은 오픈 가중치에서 물러나는 업체들이 새로 진입하거나 더 전통적인 라이선스로 옮기는 업체들로 대체되는 흐름에 가까워 보임
- 글쓴이로서 타당한 지적이라 글을 업데이트했음. Cursor Kimi 관련 내용과 헷갈린 듯하고, 지적이 맞음
  앞으로 어떻게 될지는 흥미로움. 글이 이미 길어서 넣지 않았지만, 이 회사들이 실제 주목을 얻으려면 오픈 가중치 모델이 필요했을 거라고 봄. Grok처럼 컴퓨팅 자원과 공격적 가격이 있어도 채택이 낮은 사례를 보면, 최소한 전 세계적 인지도를 얻기는 매우 어려웠을 것임
  다만 중국 모델들은 추론용 컴퓨팅도 xAI만큼 가진 건 아님. 이제 모델 품질이 좋아지면서 닫아버릴 유인이 커졌지만, 항상 새 진입자가 나오는 세계가 계속될 수도 있음
오픈 가중치 대규모 언어 모델을 공개할 시장 유인이 무엇인지 스스로 묻게 됨
Nvidia on Hugging Face는 일부 모델을 공개하고 있는데, 사람들이 구독 서비스를 쓰는 대신 로컬 대규모 언어 모델을 돌리면 그래픽카드를 더 팔 수 있다는 데 베팅하는 것 같음
오픈 가중치 모델 공개가 줄어들면, 대형 추론 제공업체들이 Linux Foundation과 비슷한 오픈 가중치 재단을 만들어 훈련 데이터 확보, 훈련, 미세조정을 조율할 수도 있음. 제공할 경쟁력 있는 모델이 없으면 이 회사들의 사업도 성립하기 어려움
- 어디선가 무어의 법칙이 끝나면 더 개방적이고 수리 가능한 전자제품이 늘어날 거라는 이론을 읽었음. 최첨단을 유지하려면 회사들은 비밀 소스를 숨길 유인이 있지만, 그 경계가 더 이상 움직이지 않으면 기능으로 경쟁하지 않게 되고 시장의 모든 제품이 비슷하게 좋아져 그 유인이 사라진다는 논리임
  지금의 추론 제공업체들이 오픈 가중치 재단에 나설지는 모르겠음. 하지만 대규모 언어 모델이 몇 년 안에 벽에 부딪힌다면, 고객들 쪽에는 확실히 유인이 생길 수 있음. “우리가 직접 할 수 있는 일에 왜 OpenAnthropic에 매달 50억 달러를 내고 있지?”라는 식임
여기서 일부 내용을 반박하는 댓글들이 있지만, 몇 가지 더 보태고 싶음
Alibaba가 Qwen에 대해 다소 덜 오픈 우선적인 접근을 취한 건 분명하고 아쉽지만, 실제 격차가 그렇게 크지는 않음. Max 계열 모델과 많은 특화 모델은 원래부터 API 전용이었고, 현재 API 전용인 주요 모델은 약 400B 매개변수의 “Plus” 정도임. 크기에 비해 역사적으로 엄청 훌륭한 모델도 아니었음
사람들이 주로 Qwen으로 아는 작은 모델들은 여전히 공개되어 있음. 공개 일정은 좀 더 흩어진 느낌이지만, Qwen 공개는 원래도 꽤 어수선했음
닫힌 모델로 언급된 Qwen 3.6 Plus는 독점 파트너십을 통해 available on Fireworks로 제공됨. 로컬 소유 서버를 원하는 조직도 쓸 수 있게 하려는 건지 모르겠지만, 앞으로 이런 방식이 늘어날지 흥미로움
Meta의 “Muse Spark”는 LLaMa와 다른 팀의 사실상 완전히 다른 모델 계열이라, 오픈 가중치를 “중단했다”고 보기보다는 별개의 제품으로 보는 편이 맞아 보임
Kimi K2.6의 표시 조항은 새로 “추가”된 것이 아니라, the clause has been there since the original K2였음. DeepSeek도 R1과 V3 0324부터 일반 MIT 라이선스를 써왔음
최근에도 MiMo v2.5 계열, GLM 5.1, Gemma 4처럼 주목도 높은 실제 오픈 가중치 공개가 여럿 있었음. 다만 GLM 본류는 오픈 가중치지만 “Code” 계열 같은 여러 미세조정판은 독점이고, Step 3.5 Flash의 2603 업데이트도 독점으로 보임. 그래도 release their SFT training data를 했으니 너무 뭐라 하긴 어려움
공개가 늦어지는 경우도 있고, MiMo v2.5/Pro와 GLM 5.1이 그랬음. 다만 이 덕분에 출시 직후 SGLang/vLLM 지원이 준비되는 장점도 가끔 있음. MiniMax M2.7은 실제로 much more restrictive license로 옮겼는데, 이게 Kimi와 혼동된 것 같음
“API로 먼저 수익을 좀 내고 나중에 공개한다”는 방식은 모델 개발 자체에 큰 비용이 든다는 점을 감안하면 여전히 꽤 관대한 편이고, 적어도 지금은 업계가 그 균형에 만족하는 듯함
GLM 5.1은 지난달 MIT 라이선스로 공개된 매우 경쟁력 있는 오픈 가중치 모델임. 이미 여러 회사가 서비스로 제공하고 있음. Z.ai가 만들었고, 다른 중국 회사들처럼 나중에 제한을 붙일 수도 있겠지만 지금은 제한이 없음
- 궁금한 사람을 위해 말하면 1.51TB임: https://huggingface.co/zai-org/GLM-5.1/tree/main
- 유럽 제공업체를 통해 OpenCode와 함께 쓰고 있는데, 확실히 Claude와 경쟁 가능함. 가까운 미래에 대기업 종속에서 완전히 벗어날 수 있기를 기대하고 있음
  일부는 모든 중국 모델이 어느 정도 대형 모델들, 즉 GPT나 Anthropic 같은 모델에서 “증류”했다고 가정함. 사실인지는 모르겠고 크게 신경 쓰지도 않음. 어쨌든 이런 모델들은 공공 영역에 있어야 한다고 보고, 빠르게 그 방향으로 가는 것 같아 기쁨
최근 AI 모델 라이선스 사업의 인기가 커질 수 있지 않을까 생각하고 있음. 일정 금액을 내고 모델 사용 권리를 얻은 뒤, 자기 하드웨어에서 직접 돌리는 방식임. Photoshop 가격 책정과 조금 비슷함
이렇게 하면 민감한 정보 유출 문제를 피하면서도 모델 제작자는 돈을 받을 수 있음. 토큰당 과금처럼 잠재적으로 매우 비싼 요금제가 아니라 정액제라는 장점도 있음. 물론 하드웨어 비용은 별도임
- 미래에는 오픈 가중치 모델을 공개하되, 그것을 실리콘에 굽는 것을 막는 라이선스를 붙일 수 있다고 봄. 그리고 이런 칩을 파는 식임: https://taalas.com/products/
Kimi K2.5가 지금까지 내게는 가장 잘 맞았고, 굳이 업그레이드하지 않아도 괜찮음