# 오픈 웨이트 LLM과 폐쇄형 LLM의 격차

> Clean Markdown view of GeekNews topic #30896. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=30896](https://news.hada.io/topic?id=30896)
- GeekNews Markdown: [https://news.hada.io/topic/30896.md](https://news.hada.io/topic/30896.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-06-28T08:35:27+09:00
- Updated: 2026-06-28T08:35:27+09:00
- Original source: [blog.doubleword.ai](https://blog.doubleword.ai/frontier-os-llm)
- Points: 1
- Comments: 1

## Topic Body

- Artificial Analysis Intelligence Index에서는 **오픈 웨이트 LLM**이 폐쇄형 LLM의 과거 성능을 따라잡는 시간이 2024년 여름부터 꾸준히 줄어드는 흐름을 보임
- 이 단일 지표에 추세선을 그으면 격차가 **2026년 12월 3일** 0개월이 되어, 오픈 모델이 지표상 최전선 폐쇄형 모델과 맞닿는다는 예측이 나옴
- 같은 분석을 **18개 벤치마크** 전체로 넓히면 평균 격차는 거의 평평하고, 전체 기간 동안 5개월 미만 수준에 머묾
- 개선 폭은 주로 **코딩 벤치마크**에서 발생했으며, 코딩 지표의 격차는 15개월에서 1~2개월로 줄어듦
- LLM 품질 평가는 측정 기준에 크게 흔들려, 오픈 모델이 곧 따라잡는다는 해석과 계속 약 5개월 뒤처진다는 해석이 동시에 가능함

---

### 단일 지표가 보여주는 빠른 추격
- 격차는 오픈 웨이트 LLM의 벤치마크 최전선을 기준으로, 폐쇄형 LLM 최전선이 과거 어느 시점에 같은 성능을 냈는지 되짚어 계산함
- 사용된 헤드라인 지표는 Artificial Analysis의 **Artificial Analysis Intelligence Index**로, 모델의 전반적 능력을 평가하려는 지표임
- 이 지표에서는 2024년 여름 무렵부터 오픈 웨이트 LLM과 폐쇄형 LLM의 격차가 줄어들기 시작했고, 이후에도 축소 흐름이 이어짐
- 추세선을 미래로 연장하면 격차가 **2026년 12월 3일** 0개월이 됨
  - 작성 시점 기준 약 6개월 뒤라는 계산임

### 18개 벤치마크가 보여주는 다른 결론
- Artificial Analysis의 **18개 벤치마크** 전체에 같은 분석을 적용하면 단일 지표와 다른 그림이 나옴
- 각 월마다 18개 데이터셋별 격차를 박스플롯으로 만들고, 데이터셋 전체 평균 격차에 대해 추세선을 계산함
- 평균 격차의 추세선은 거의 완전히 평평하며, 전체 기간 동안 **5개월 미만** 수준에 가까움
- 모델 개선의 상당 부분은 **코딩 지표**에서 발생함
  - 코딩 인덱스는 15개월 뒤처진 수준에서 1~2개월 뒤처진 수준으로 줄어듦
  - 다른 대부분의 데이터셋에서는 시간이 지나며 격차가 완만하게 커지는 흐름을 보임
- 측정 기준에 따라 LLM 품질 판단이 크게 달라짐
  - 한 기준으로는 크리스마스 무렵 오픈소스 singularity를 예측할 수 있음
  - 다른 기준으로는 오픈소스 LLM이 폐쇄형 LLM보다 꾸준히 약 5개월 뒤처져 있고, 격차가 커질 수도 있음

## Comments


### Comment 60545

- Author: neo
- Created: 2026-06-28T08:35:28+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=48692058) 
- 오픈 가중치 모델의 미래에서 가장 큰 문제는 지금의 **오픈 가중치 모델**이 DeepSeek 같은 민간 조직의 선의에 기대어 나온 결과라는 점임  
  수도꼭지는 언제든 잠길 수 있고, 어떤 형태로든 **커뮤니티 소유 하드웨어**가 생기기 전까지는 오픈 가중치 모델이 중단될 위험을 계속 안고 있음
  - 그래도 오픈 모델의 가장 큰 장점은 **한번 공개된 성능을 빼앗길 수 없다**는 점임  
    앞으로 새 모델이 전혀 나오지 않더라도 이미 도달한 능력은 남아 있음. 반면 API 기반 모델은 제공자가 마음대로 종료할 수 있고, `gpt5-mini`가 곧 사라지고 더 비싼 `5.4-mini`로 대체되는 식의 일이 가능함  
    Nvidia는 사람들이 모델을 돌릴수록 직접 이익을 얻으니 **Nemotron** 계열을 계속 낼 유인이 있고, Google도 브라우저 기능에 쓸 소형 모델은 어차피 유출될 걸 아니 개발자 시장 점유율을 얻는 쪽이 나음  
    중국 연구소들도 모델을 계속 공개할 유인이 있고, 국가 간 상업 전쟁 덕분에 정부 지원도 이어질 가능성이 큼
  - DeepSeek는 자선이 아니라 서구 AI 시장을 공매도하려는 **헤지펀드**에 가까움  
    “우리는 비용의 1/10로 너희의 90%를 할 수 있다, 밀도 지표로는 더 낫다”고 말하는 식이고, 적어도 내 이론으로는 AI판 **Hindenburg Research**처럼 보임
  - 글의 원작성자로서, 오픈 가중치 모델의 미래는 **팹리스 칩 설계 회사**와 비슷해질 것 같음  
    모델을 학습할 수 있는 회사가 생기고, 그 모델을 API를 운영하는 추론 회사에 라이선스하는 구조가 될 수 있음  
    추론 회사는 훨씬 적은 자본으로 운영 가능하고, 학습 회사는 추론에 자원을 빼앗기지 않아도 됨  
    일부 중국 모델 학습 회사는 이미 이런 식으로 추론 제공자에게 모델을 라이선스하고 있음
  - 모델 학습을 위한 **SETI@Home** 같은 게 필요함
  - 이건 자선이 아니고, 연구소들이 서로 공개 모델에서 배우며 얻는 게 있음  
    재정적으로도 말이 된다고 봄. 구독 한도를 꽉 채워 쓰는 사용자는 운영자에게 구독료보다 더 큰 비용을 만들 수 있고, Anthropic이 중국 데이터 수집에 크게 반응하는 이유도 여기에 있을 수 있음  
    가중치를 공개하면 경쟁자가 구독 서비스를 두드릴 필요 없이 모델을 내려받아 분석하고 하루 종일 돌릴 수 있으니 부담이 줄어듦  
    가장 큰 모델은 주요 업체가 아니면 직접 돌릴 이유가 거의 없음. 하드웨어 임대는 구독료보다 터무니없이 비싸고 수만 달러가 들며, 구매하려면 수십만 달러가 필요함

- “지금 연금을 현금화하고 외딴 섬으로 날아가 문명에 남은 6개월쯤을 평화롭게 보내기 좋은 때다”, “그래서 아직 오픈소스 종말은 오지 않을지도 모른다”는 식의 표현이 있었는데, 좋은 **오픈소스 모델**이 언제부터 종말의 전조가 됐는지 모르겠음
  - 오히려 오픈소스 모델은 종말에 대한 **헤지**임  
    적어도 사이버펑크식 디스토피아에 대한 헤지라고 볼 수 있음
  - 오픈 가중치가 최첨단 모델의 능력에 도달하면, 제한 없는 **mythos+급 모델**을 모두가 손에 넣는 끔찍한 결과를 농담 섞어 가리킨 뜻으로 봤음
  - 귀엽다. 기후 변화가 식량 작물과 암 발생률에 미칠 종말론적 영향, 특히 오존층 붕괴 이후의 영향도 사람들을 바꾸지 못했음  
    그런데 **오픈 모델 LLM**은 괴물 취급임. 시장을 OpenAI나 Anthropic이 안전하게 통제하고 모든 결정을 내려야 한다는 건가
  - 이 글은 오픈 가중치 LLM을 호스팅하는 회사의 블로그 글임([https://www.doubleword.ai/](<https://www.doubleword.ai/>))  
    아마 **농담 섞인 표현**이었을 가능성이 있음
  - 종말론이 사상 최고치에 올라 있고, 사람들이 날마다 더 **신경증적**이 되어가는 듯함

- 지금 흐름으로는 중국 모델이 미국의 최첨단 모델을 앞지르기 어려움  
  미국 모델의 우위는 거대한 교사 모델로 생성하는 등 실제 대화형 트래픽에는 도저히 투입하기 힘든 방식까지 써서 더 많고 질 좋은, 주로 **합성 데이터**를 확보하는 데서 나옴  
  중국 모델은 모델 최적화에 엄청난 노력을 들이고, 미국 최첨단 모델에서 더 많고 질 좋은 학습 데이터를 확보하는 식으로 전진함  
  중국의 오픈 가중치 모델이 미국 연구소의 최첨단 모델을 넘으려면, 이 방정식이 뒤집혀야 함. 중국 연구소는 최첨단 모델 데이터 수확에서 벗어나 새로운 데이터를 만드는 데이터 시스템과 노력을 구축해야 하고, 최신 세대 하드웨어도 대량으로 확보해야 함  
  최첨단 규모 모델 학습 자체가 상상 불가능한 위업은 아니며, 진짜 하드웨어가 들어가는 곳은 **교사 모델 추론** 쪽임
  - 그 회사들에서 일하지 않는 한 실제로 무엇을 하는지 알 수 없음  
    z.ai나 Alibaba 내부도 모르고, Anthropic이나 OpenAI 내부도 모름  
    다만 서로 데이터를 수집하지 않을 가능성은 매우 낮아 보임. Anthropic도 경쟁사를 보기 위해서라도 **GLM 5.2 가중치**를 들여다보는 팀이 있을 거라고 확신함  
    어떤 연구소가 Anthropic 데이터를 얻는다고 해서 자체 연구를 안 한다는 뜻은 아님  
    최적화에 집중했던 건 최고의 하드웨어를 구할 수 없었기 때문이고, 상위 연구소들이 뒤처진 유일한 이유가 H200이나 MI350을 못 가졌기 때문일 수도 있음. 이제는 갖게 됨  
    또 다른 위험도 과소평가하고 있음. Anthropic은 미국 정부와 신경전을 벌이다가 현재 세계 “최고” 모델들을 내부에 묶어두고 있음  
    중국도 비슷할 수 있음. 알려진 바로는 중국 정부가 AI 수출과 오픈 가중치 모델에 의외로 열려 있지만, GLM 5.2의 더 좋은 버전을 내부에 쥐고 있고 아무도 말할 수 없는 작지만 무시 못 할 가능성도 있음  
    중국 연구소가 6개월 뒤처졌다는 경우와, 최고의 모델을 억눌리도록 강제받는 경우는 겉으로 구분하기 어려움
  - “중국 연구소가 최첨단 모델 데이터 수확에서 벗어나 새로운 데이터를 만들어야 한다”는 묘사가 맞더라도, 그들은 내일이라도 그렇게 할 수 있고 그걸 생각 못 할 만큼 근시안적이지 않음  
    이걸 장벽으로 보지 않으며, 지난 50년 동안 이어진 **아시아 과소평가**와 비슷하게 느껴짐  
    LLM을 만드는 데 미국만의 타고난 우위가 있는 것도 아니고, 미국이 가진 선발 이점은 “공개하기엔 너무 위험하다”는 식의 수출 통제 놀이로 지연되며 낭비될 가능성이 큼
  - Anthropic이 증류를 위해 추출됐다고 주장한 데이터 양은 전체 인터넷에 비하면 매우 작음  
    인터넷에는 모델이 알아야 한다고 기대되는 지식 대부분이 그대로 있음  
    더 나은 모델에서 소량의 데이터로 증류하는 것은 여전히 도움이 되지만, 원래 인터넷 학습 모델에 전혀 없는 능력을 옮긴다기보다는 **순종적인 어시스턴트 페르소나**에 맞는 능력을 찾아내고 트롤링 같은 원치 않는 능력을 억제하는 쪽에 가까움  
    ChatGPT로 만든 명령어 튜닝 데이터셋을 Alpaca 등에 썼던 것이 원시적인 버전임  
    따라 할 명확한 목표가 없으면 경쟁자는 인간 평가자에 더 의존해야겠지만, 중국에는 데이터 라벨링 회사가 많으니 큰 장애물은 아님
  - “중국은 미국을 베낄 수밖에 없다”는 생각은 매우 **근시안적이고 정보가 부족한** 판단임  
    중국에서 나오는 것은 모델 증류의 새 방법뿐만이 아님
  - 어떻게 그럴까 싶음. 곧 선택지는 아주 오래된 OAI 모델이나 새 중국 모델뿐일 것임  
    미국 정부는 명시적 허가 없이 최신 모델에 접근하게 할 생각이 없어 보임

- 닫힌 모델이 **벤치마크를 사실상 속일 수 있다**는 얘기가 별로 안 보임  
  Anthropic이나 OpenAI가 모델이라고 브랜드화하는 것이 꼭 가중치만일 필요는 없고, 모델 자체를 보강하는 전체 백엔드 시스템일 수 있음  
  그러면 가중치만 있는 오픈소스 모델보다 벤치마크 점수가 더 잘 나올 수 있음
  - 맞고, 그건 괜찮다고 봄. 전부 포함해서 성능으로 쳐야 함  
    오픈소스도 마찬가지고, 벤치마크를 어떤 실행 도구 없이 돌리는 것도 아님  
    AGI가 100% 신경망으로 만들어졌는지, 아니면 **신경망 50%와 Perl 스크립트 50%** 로 만들어졌는지는 아무도 신경 쓰지 않음

- 모델 성능 향상의 상당 부분이 **코딩 벤치마크**에서 나왔다는 점은 말이 됨  
  코딩은 모델의 가장 명확한 단기 활용처 중 하나이고, 토큰에 많은 돈을 낼 준비가 된 시장이 있으며, 작업할 거대한 말뭉치가 있고, 문제 영역 자체에 상당한 검증 가능성이 내장돼 있음

- 자유의 땅으로 알려진 미국은 이제 미국인이 아니면 **최첨단 모델**을 쓰지도 못하게 제한하고 있음  
  반대로 “권위주의 국가”이자 “자유의 반대말”처럼 여겨지는 중국은 특히 자본주의적인 소프트웨어 산업을 바탕으로 경쟁력 있는 오픈 가중치 모델을 모두 만들어냈음  
  정말 아이러니함  
  중국인으로서, 이 전략이 뒤처진 입장에서 오픈소스를 비대칭 경쟁 수단으로 쓰고, 부족한 연산 자원을 부담 분산으로 보완하려는 것임은 이해함. 그래도 매우 아이러니함
  - 비교는 첫 문장부터 무너짐  
    미국이 스스로 자유의 땅이라고 말할 수는 있지만, 수백 년 동안 **경제 보호주의** 게임을 해왔음  
    이번 일은 그 최신 사례일 뿐임

- 닫힌 모델 회사들이 오픈 모델에 어느 정도 **성능 부스트**를 주고 있는지 궁금함  
  닫힌 모델의 개선이 멈추면 오픈 모델의 진전도 느려질까
  - 왜 미국 연구소만 혁신할 수 있다고 가정하는지 모르겠음  
    예를 들어 DeepSeek는 이미 **효율성**에서 많은 혁신을 했음
  - “증류”가 오픈 가중치 모델이 따라잡는 데 얼마나 도움이 되는지는 중국의 몇몇 사람들은 분명 알고 있을 것임  
    닫힌 모델이 개선을 멈추면 모든 닫힌 모델도 멈춘다는 식의 가정은, 모델들이 곧 어떤 벽에 부딪히지 않는 한 매우 가능성이 낮음  
    중국 회사들은 연산 능력에서 미국보다 뒤처질 수 있지만, 현재 잘 작동하는 문제 생성과 강화학습 분야에서 미국 동료들과 대략 비슷하게 뛰어난 연구자들이 있음 [0]  
    특히 프로그래밍처럼 **짧은 피드백 루프**가 가능한 영역에서는, 우리가 보잘것없는 인간이라 목적 함수를 정의할 능력을 잃는 지점까지는 빠른 개선이 이어질 가능성이 큼  
    반대로 피드백이 느리거나 비싼 분야에서는 마법을 기대하지 않음. 거대하고 유능한 제약회사도 평가 과정이 너무 느리고 비싸기 때문에 멋진 신약을 안정적으로 발명하지 못하며, 모델도 같은 이유로 곧 그렇게 하긴 어려움  
    약물 개발 경로 n개를 m번 반복하며 강화학습을 돌리려면 가능하다고 해도 n*m에 1천만~1억 달러를 곱한 비용과 m년이 들 것임  
    [0] 미국 대학 시스템을 통해 전 세계 인재가 미국 연구소로 흘러가던 **두뇌 유출**이 말라가고 있어, 이 분야의 미국 우위는 줄어들 가능성이 큼

- 최근 미국 수출 금지와 함께 보면 흥미로움  
  미국이 대중이 쓸 수 있는 모델 품질 측면에서 오픈소스, 특히 중국 연구소가 따라잡도록 만들며 **선두를 낭비**하고 있는 걸까  
  사용자가 최신 모델을 쓸 수 없는 상황에서도 미국 연구소가 우위를 유지할 수 있을까
  - 왜 그게 중요한지 궁금함  
    중요하다는 뜻도, 중요하지 않다는 뜻도 아니지만 “미국이 이김”이나 “중국이 이김”이 어떤 **실질적 가치**를 가져오는지 모르겠음

- 오픈 가중치·중국 모델이 최신 최첨단 모델의 증류에 크게 의존한다는 믿음이 맞다면, 격차는 최신 최첨단 모델에서 의미 있는 데이터를 추출하는 데 필요한 최소 시간에 최신 의존 모델의 학습 마무리 시간을 더한 수준에서 안정화될 것임  
  이 격차는 공정 효율을 높여 줄일 수는 있지만 완전히 없앨 수는 없음  
  Anthropic이나 OpenAI에서의 증류를 방해하려는 시도도 균형을 바꿀 수 있음

- 선도적 LLM 적용의 최전선에 있어야 한다고 믿고, 점점 의존하기 시작한 많은 회사와 정부가 Arthur C. Clarke의 단편 **Superiority** 같은 상황에 빠지게 될지 궁금함  
  [1] 원문: [https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...](<https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/superiority.pdf>)  
  [2] Wikipedia: [https://en.wikipedia.org/wiki/Superiority_(short_story)](<https://en.wikipedia.org/wiki/Superiority_(short_story)>)