오픈 웨이트 LLM과 폐쇄형 LLM의 격차

(blog.doubleword.ai)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

Artificial Analysis Intelligence Index에서는 오픈 웨이트 LLM이 폐쇄형 LLM의 과거 성능을 따라잡는 시간이 2024년 여름부터 꾸준히 줄어드는 흐름을 보임
이 단일 지표에 추세선을 그으면 격차가 2026년 12월 3일 0개월이 되어, 오픈 모델이 지표상 최전선 폐쇄형 모델과 맞닿는다는 예측이 나옴
같은 분석을 18개 벤치마크 전체로 넓히면 평균 격차는 거의 평평하고, 전체 기간 동안 5개월 미만 수준에 머묾
개선 폭은 주로 코딩 벤치마크에서 발생했으며, 코딩 지표의 격차는 15개월에서 1~2개월로 줄어듦
LLM 품질 평가는 측정 기준에 크게 흔들려, 오픈 모델이 곧 따라잡는다는 해석과 계속 약 5개월 뒤처진다는 해석이 동시에 가능함

단일 지표가 보여주는 빠른 추격

격차는 오픈 웨이트 LLM의 벤치마크 최전선을 기준으로, 폐쇄형 LLM 최전선이 과거 어느 시점에 같은 성능을 냈는지 되짚어 계산함
사용된 헤드라인 지표는 Artificial Analysis의 Artificial Analysis Intelligence Index로, 모델의 전반적 능력을 평가하려는 지표임
이 지표에서는 2024년 여름 무렵부터 오픈 웨이트 LLM과 폐쇄형 LLM의 격차가 줄어들기 시작했고, 이후에도 축소 흐름이 이어짐
추세선을 미래로 연장하면 격차가 2026년 12월 3일 0개월이 됨
- 작성 시점 기준 약 6개월 뒤라는 계산임

18개 벤치마크가 보여주는 다른 결론

Artificial Analysis의 18개 벤치마크 전체에 같은 분석을 적용하면 단일 지표와 다른 그림이 나옴
각 월마다 18개 데이터셋별 격차를 박스플롯으로 만들고, 데이터셋 전체 평균 격차에 대해 추세선을 계산함
평균 격차의 추세선은 거의 완전히 평평하며, 전체 기간 동안 5개월 미만 수준에 가까움
모델 개선의 상당 부분은 코딩 지표에서 발생함
- 코딩 인덱스는 15개월 뒤처진 수준에서 1~2개월 뒤처진 수준으로 줄어듦
- 다른 대부분의 데이터셋에서는 시간이 지나며 격차가 완만하게 커지는 흐름을 보임
측정 기준에 따라 LLM 품질 판단이 크게 달라짐
- 한 기준으로는 크리스마스 무렵 오픈소스 singularity를 예측할 수 있음
- 다른 기준으로는 오픈소스 LLM이 폐쇄형 LLM보다 꾸준히 약 5개월 뒤처져 있고, 격차가 커질 수도 있음

GN⁺ 3시간전 [-]

Hacker News 의견들

오픈 가중치 모델의 미래에서 가장 큰 문제는 지금의 오픈 가중치 모델이 DeepSeek 같은 민간 조직의 선의에 기대어 나온 결과라는 점임
수도꼭지는 언제든 잠길 수 있고, 어떤 형태로든 커뮤니티 소유 하드웨어가 생기기 전까지는 오픈 가중치 모델이 중단될 위험을 계속 안고 있음
- 그래도 오픈 모델의 가장 큰 장점은 한번 공개된 성능을 빼앗길 수 없다는 점임
  앞으로 새 모델이 전혀 나오지 않더라도 이미 도달한 능력은 남아 있음. 반면 API 기반 모델은 제공자가 마음대로 종료할 수 있고, gpt5-mini가 곧 사라지고 더 비싼 5.4-mini로 대체되는 식의 일이 가능함
  Nvidia는 사람들이 모델을 돌릴수록 직접 이익을 얻으니 Nemotron 계열을 계속 낼 유인이 있고, Google도 브라우저 기능에 쓸 소형 모델은 어차피 유출될 걸 아니 개발자 시장 점유율을 얻는 쪽이 나음
  중국 연구소들도 모델을 계속 공개할 유인이 있고, 국가 간 상업 전쟁 덕분에 정부 지원도 이어질 가능성이 큼
- DeepSeek는 자선이 아니라 서구 AI 시장을 공매도하려는 헤지펀드에 가까움
  “우리는 비용의 1/10로 너희의 90%를 할 수 있다, 밀도 지표로는 더 낫다”고 말하는 식이고, 적어도 내 이론으로는 AI판 Hindenburg Research처럼 보임
- 글의 원작성자로서, 오픈 가중치 모델의 미래는 팹리스 칩 설계 회사와 비슷해질 것 같음
  모델을 학습할 수 있는 회사가 생기고, 그 모델을 API를 운영하는 추론 회사에 라이선스하는 구조가 될 수 있음
  추론 회사는 훨씬 적은 자본으로 운영 가능하고, 학습 회사는 추론에 자원을 빼앗기지 않아도 됨
  일부 중국 모델 학습 회사는 이미 이런 식으로 추론 제공자에게 모델을 라이선스하고 있음
- 모델 학습을 위한 SETI@Home 같은 게 필요함
- 이건 자선이 아니고, 연구소들이 서로 공개 모델에서 배우며 얻는 게 있음
  재정적으로도 말이 된다고 봄. 구독 한도를 꽉 채워 쓰는 사용자는 운영자에게 구독료보다 더 큰 비용을 만들 수 있고, Anthropic이 중국 데이터 수집에 크게 반응하는 이유도 여기에 있을 수 있음
  가중치를 공개하면 경쟁자가 구독 서비스를 두드릴 필요 없이 모델을 내려받아 분석하고 하루 종일 돌릴 수 있으니 부담이 줄어듦
  가장 큰 모델은 주요 업체가 아니면 직접 돌릴 이유가 거의 없음. 하드웨어 임대는 구독료보다 터무니없이 비싸고 수만 달러가 들며, 구매하려면 수십만 달러가 필요함
“지금 연금을 현금화하고 외딴 섬으로 날아가 문명에 남은 6개월쯤을 평화롭게 보내기 좋은 때다”, “그래서 아직 오픈소스 종말은 오지 않을지도 모른다”는 식의 표현이 있었는데, 좋은 오픈소스 모델이 언제부터 종말의 전조가 됐는지 모르겠음
- 오히려 오픈소스 모델은 종말에 대한 헤지임
  적어도 사이버펑크식 디스토피아에 대한 헤지라고 볼 수 있음
- 오픈 가중치가 최첨단 모델의 능력에 도달하면, 제한 없는 mythos+급 모델을 모두가 손에 넣는 끔찍한 결과를 농담 섞어 가리킨 뜻으로 봤음
- 귀엽다. 기후 변화가 식량 작물과 암 발생률에 미칠 종말론적 영향, 특히 오존층 붕괴 이후의 영향도 사람들을 바꾸지 못했음
  그런데 오픈 모델 LLM은 괴물 취급임. 시장을 OpenAI나 Anthropic이 안전하게 통제하고 모든 결정을 내려야 한다는 건가
- 이 글은 오픈 가중치 LLM을 호스팅하는 회사의 블로그 글임(https://www.doubleword.ai/)
  아마 농담 섞인 표현이었을 가능성이 있음
- 종말론이 사상 최고치에 올라 있고, 사람들이 날마다 더 신경증적이 되어가는 듯함
지금 흐름으로는 중국 모델이 미국의 최첨단 모델을 앞지르기 어려움
미국 모델의 우위는 거대한 교사 모델로 생성하는 등 실제 대화형 트래픽에는 도저히 투입하기 힘든 방식까지 써서 더 많고 질 좋은, 주로 합성 데이터를 확보하는 데서 나옴
중국 모델은 모델 최적화에 엄청난 노력을 들이고, 미국 최첨단 모델에서 더 많고 질 좋은 학습 데이터를 확보하는 식으로 전진함
중국의 오픈 가중치 모델이 미국 연구소의 최첨단 모델을 넘으려면, 이 방정식이 뒤집혀야 함. 중국 연구소는 최첨단 모델 데이터 수확에서 벗어나 새로운 데이터를 만드는 데이터 시스템과 노력을 구축해야 하고, 최신 세대 하드웨어도 대량으로 확보해야 함
최첨단 규모 모델 학습 자체가 상상 불가능한 위업은 아니며, 진짜 하드웨어가 들어가는 곳은 교사 모델 추론 쪽임
- 그 회사들에서 일하지 않는 한 실제로 무엇을 하는지 알 수 없음
  z.ai나 Alibaba 내부도 모르고, Anthropic이나 OpenAI 내부도 모름
  다만 서로 데이터를 수집하지 않을 가능성은 매우 낮아 보임. Anthropic도 경쟁사를 보기 위해서라도 GLM 5.2 가중치를 들여다보는 팀이 있을 거라고 확신함
  어떤 연구소가 Anthropic 데이터를 얻는다고 해서 자체 연구를 안 한다는 뜻은 아님
  최적화에 집중했던 건 최고의 하드웨어를 구할 수 없었기 때문이고, 상위 연구소들이 뒤처진 유일한 이유가 H200이나 MI350을 못 가졌기 때문일 수도 있음. 이제는 갖게 됨
  또 다른 위험도 과소평가하고 있음. Anthropic은 미국 정부와 신경전을 벌이다가 현재 세계 “최고” 모델들을 내부에 묶어두고 있음
  중국도 비슷할 수 있음. 알려진 바로는 중국 정부가 AI 수출과 오픈 가중치 모델에 의외로 열려 있지만, GLM 5.2의 더 좋은 버전을 내부에 쥐고 있고 아무도 말할 수 없는 작지만 무시 못 할 가능성도 있음
  중국 연구소가 6개월 뒤처졌다는 경우와, 최고의 모델을 억눌리도록 강제받는 경우는 겉으로 구분하기 어려움
- “중국 연구소가 최첨단 모델 데이터 수확에서 벗어나 새로운 데이터를 만들어야 한다”는 묘사가 맞더라도, 그들은 내일이라도 그렇게 할 수 있고 그걸 생각 못 할 만큼 근시안적이지 않음
  이걸 장벽으로 보지 않으며, 지난 50년 동안 이어진 아시아 과소평가와 비슷하게 느껴짐
  LLM을 만드는 데 미국만의 타고난 우위가 있는 것도 아니고, 미국이 가진 선발 이점은 “공개하기엔 너무 위험하다”는 식의 수출 통제 놀이로 지연되며 낭비될 가능성이 큼
- Anthropic이 증류를 위해 추출됐다고 주장한 데이터 양은 전체 인터넷에 비하면 매우 작음
  인터넷에는 모델이 알아야 한다고 기대되는 지식 대부분이 그대로 있음
  더 나은 모델에서 소량의 데이터로 증류하는 것은 여전히 도움이 되지만, 원래 인터넷 학습 모델에 전혀 없는 능력을 옮긴다기보다는 순종적인 어시스턴트 페르소나에 맞는 능력을 찾아내고 트롤링 같은 원치 않는 능력을 억제하는 쪽에 가까움
  ChatGPT로 만든 명령어 튜닝 데이터셋을 Alpaca 등에 썼던 것이 원시적인 버전임
  따라 할 명확한 목표가 없으면 경쟁자는 인간 평가자에 더 의존해야겠지만, 중국에는 데이터 라벨링 회사가 많으니 큰 장애물은 아님
- “중국은 미국을 베낄 수밖에 없다”는 생각은 매우 근시안적이고 정보가 부족한 판단임
  중국에서 나오는 것은 모델 증류의 새 방법뿐만이 아님
- 어떻게 그럴까 싶음. 곧 선택지는 아주 오래된 OAI 모델이나 새 중국 모델뿐일 것임
  미국 정부는 명시적 허가 없이 최신 모델에 접근하게 할 생각이 없어 보임
닫힌 모델이 벤치마크를 사실상 속일 수 있다는 얘기가 별로 안 보임
Anthropic이나 OpenAI가 모델이라고 브랜드화하는 것이 꼭 가중치만일 필요는 없고, 모델 자체를 보강하는 전체 백엔드 시스템일 수 있음
그러면 가중치만 있는 오픈소스 모델보다 벤치마크 점수가 더 잘 나올 수 있음
- 맞고, 그건 괜찮다고 봄. 전부 포함해서 성능으로 쳐야 함
  오픈소스도 마찬가지고, 벤치마크를 어떤 실행 도구 없이 돌리는 것도 아님
  AGI가 100% 신경망으로 만들어졌는지, 아니면 신경망 50%와 Perl 스크립트 50% 로 만들어졌는지는 아무도 신경 쓰지 않음
모델 성능 향상의 상당 부분이 코딩 벤치마크에서 나왔다는 점은 말이 됨
코딩은 모델의 가장 명확한 단기 활용처 중 하나이고, 토큰에 많은 돈을 낼 준비가 된 시장이 있으며, 작업할 거대한 말뭉치가 있고, 문제 영역 자체에 상당한 검증 가능성이 내장돼 있음
자유의 땅으로 알려진 미국은 이제 미국인이 아니면 최첨단 모델을 쓰지도 못하게 제한하고 있음
반대로 “권위주의 국가”이자 “자유의 반대말”처럼 여겨지는 중국은 특히 자본주의적인 소프트웨어 산업을 바탕으로 경쟁력 있는 오픈 가중치 모델을 모두 만들어냈음
정말 아이러니함
중국인으로서, 이 전략이 뒤처진 입장에서 오픈소스를 비대칭 경쟁 수단으로 쓰고, 부족한 연산 자원을 부담 분산으로 보완하려는 것임은 이해함. 그래도 매우 아이러니함
- 비교는 첫 문장부터 무너짐
  미국이 스스로 자유의 땅이라고 말할 수는 있지만, 수백 년 동안 경제 보호주의 게임을 해왔음
  이번 일은 그 최신 사례일 뿐임
닫힌 모델 회사들이 오픈 모델에 어느 정도 성능 부스트를 주고 있는지 궁금함
닫힌 모델의 개선이 멈추면 오픈 모델의 진전도 느려질까
- 왜 미국 연구소만 혁신할 수 있다고 가정하는지 모르겠음
  예를 들어 DeepSeek는 이미 효율성에서 많은 혁신을 했음
- “증류”가 오픈 가중치 모델이 따라잡는 데 얼마나 도움이 되는지는 중국의 몇몇 사람들은 분명 알고 있을 것임
  닫힌 모델이 개선을 멈추면 모든 닫힌 모델도 멈춘다는 식의 가정은, 모델들이 곧 어떤 벽에 부딪히지 않는 한 매우 가능성이 낮음
  중국 회사들은 연산 능력에서 미국보다 뒤처질 수 있지만, 현재 잘 작동하는 문제 생성과 강화학습 분야에서 미국 동료들과 대략 비슷하게 뛰어난 연구자들이 있음 [0]
  특히 프로그래밍처럼 짧은 피드백 루프가 가능한 영역에서는, 우리가 보잘것없는 인간이라 목적 함수를 정의할 능력을 잃는 지점까지는 빠른 개선이 이어질 가능성이 큼
  반대로 피드백이 느리거나 비싼 분야에서는 마법을 기대하지 않음. 거대하고 유능한 제약회사도 평가 과정이 너무 느리고 비싸기 때문에 멋진 신약을 안정적으로 발명하지 못하며, 모델도 같은 이유로 곧 그렇게 하긴 어려움
  약물 개발 경로 n개를 m번 반복하며 강화학습을 돌리려면 가능하다고 해도 n*m에 1천만~1억 달러를 곱한 비용과 m년이 들 것임
  [0] 미국 대학 시스템을 통해 전 세계 인재가 미국 연구소로 흘러가던 두뇌 유출이 말라가고 있어, 이 분야의 미국 우위는 줄어들 가능성이 큼
최근 미국 수출 금지와 함께 보면 흥미로움
미국이 대중이 쓸 수 있는 모델 품질 측면에서 오픈소스, 특히 중국 연구소가 따라잡도록 만들며 선두를 낭비하고 있는 걸까
사용자가 최신 모델을 쓸 수 없는 상황에서도 미국 연구소가 우위를 유지할 수 있을까
- 왜 그게 중요한지 궁금함
  중요하다는 뜻도, 중요하지 않다는 뜻도 아니지만 “미국이 이김”이나 “중국이 이김”이 어떤 실질적 가치를 가져오는지 모르겠음
오픈 가중치·중국 모델이 최신 최첨단 모델의 증류에 크게 의존한다는 믿음이 맞다면, 격차는 최신 최첨단 모델에서 의미 있는 데이터를 추출하는 데 필요한 최소 시간에 최신 의존 모델의 학습 마무리 시간을 더한 수준에서 안정화될 것임
이 격차는 공정 효율을 높여 줄일 수는 있지만 완전히 없앨 수는 없음
Anthropic이나 OpenAI에서의 증류를 방해하려는 시도도 균형을 바꿀 수 있음
선도적 LLM 적용의 최전선에 있어야 한다고 믿고, 점점 의존하기 시작한 많은 회사와 정부가 Arthur C. Clarke의 단편 Superiority 같은 상황에 빠지게 될지 궁금함
[1] 원문: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)

답변달기

오픈 웨이트 LLM과 폐쇄형 LLM의 격차

단일 지표가 보여주는 빠른 추격

18개 벤치마크가 보여주는 다른 결론

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들