# LLM들은 얼마나 클까? (2025년 현황)

> Clean Markdown view of GeekNews topic #21796. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=21796](https://news.hada.io/topic?id=21796)
- GeekNews Markdown: [https://news.hada.io/topic/21796.md](https://news.hada.io/topic/21796.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-07-03T10:26:35+09:00
- Updated: 2025-07-03T10:26:35+09:00
- Original source: [gist.github.com/rain-1](https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e)
- Points: 14
- Comments: 1

## Summary

**GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan 등** 주요 대형 언어 모델의 **파라미터(매개변수) 규모와 구조**에 대한 객관적 정보와 변천사를 정리한 글입니다.

## Topic Body

- **GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan 등** 주요 대형 언어 모델의 **파라미터(매개변수) 규모와 구조**에 대한 객관적 정보와 변천사 정리  
- **GPT-2 (2019년)** 는 1.3억~16억 파라미터, **GPT-3 (2020년)** 는 1,750억(175B) 파라미터, **Llama-3.1(2024년)** 은 4050억(405B) 파라미터 등으로 대형 모델의 크기가 빠르게 증가함  
- **MoE(전문가 혼합) 구조**의 등장으로 GPT-3급 이상 모델이 오픈 소스/다운로드 가능하게 되었으며, 대표적으로 **DeepSeek V3 Base(6710억)**, **ERNIE-4.5(4240억)**, **Mixtral-8x22B(1410억)** 등 다양한 초대형 모델들이 등장함  
- **Dense(모든 파라미터를 사용)** 모델과 **MoE(일부 전문가 파라미터만 활성화)** 모델의 비교가 복잡해졌으며, 실질적인 "지능" 비교가 쉽지 않음  
- 최근에는 **다중 모달·다중 언어 지원, 새로운 아키텍처, 합성 데이터 활용** 등 다양한 발전 트렌드가 나타남  
  
---  
  
- 이 문서는 최근 몇 년간 대형 언어 모델(LLM)의 **기초 모델(베이스 모델)** 규모 변화에 대한 사실 정보를 정리한 내용임  
- 챗봇·어시스턴트가 아니라 **텍스트 생성 엔진 본연의 모델**에 초점을 맞추고 있음  
  
### 역사  
  
- **GPT-2(-medium, -large, -xl)** (2019): 각각 1.37억, 3.8억, 8.12억, 16.1억 파라미터   
  - 약 40GB의 웹텍스트 데이터셋(10억 토큰 추정) 기반으로 훈련됨  
  - 사용된 사이트 목록은 domains.txt에서 확인 가능함  
- **GPT-3(davinci, davinci-002)** (2020): 1,750억 파라미터  
  - CommonCrawl, WebText2, Books1·2, Wikipedia 등 약 4000억 토큰 데이터로 훈련됨  
  - 대규모 A100 GPU 수천 대로 수개월간 학습 필요  
- **GPT-3.5, GPT-4** (2022, 2023): 아키텍처 및 데이터 관련 공식적 정보 비공개  
  
### Llama  
  
- **Llama**는 Meta(구 Facebook)에서 개발한 대형 언어 모델 시리즈로, **오픈 소스화**와 상대적으로 적은 리소스로도 활용 가능한 구조로 주목받음  
- **모델 크기(파라미터 수)** 와 학습 데이터, 아키텍처의 진화 과정이 LLM(대형 언어 모델) 오픈소스 트렌드를 이끌었음  
- ## Llama 1 (2023)  
  - **7B, 13B, 33B, 65B**: 70억, 130억, 330억, 650억 파라미터 제공  
  - **학습 데이터**: 1.4조(1.4T) 토큰의 대규모 텍스트(Books3, CommonCrawl 등)  
  - Llama 65B는 당시 오픈 모델 중 최대 규모였음  
  - Books3는 저작권 관련 법제 논의의 중요한 계기가 된 대규모 데이터임  
  - **특징**  
    - 상대적으로 작은 GPU로도 실행 가능(65B도 8장 GPU로 동작)  
    - 오픈 가중치 배포로, 다양한 파생 모델과 커뮤니티 실험 확산  
- ## Llama 2 (2023 하반기)  
  - 공개 당시 70억, 130억, 700억 파라미터 제공(7B, 13B, 70B)  
  - 대화형(챗봇) 버전도 공개, fine-tuning 및 RLHF(강화학습) 등 지원  
  - 커뮤니티와 상업적 용도까지 허용되는 라이선스(단, 일부 제한)  
- ## Llama 3.1 (2024)  
  - **405B**: 4050억 dense(모든 파라미터 사용) 파라미터  
  - **학습 데이터**: 2.87조 토큰 + 8000억 롱 컨텍스트 + 4000만 annealing(고품질 코드/수학 등 추가) → 총 3.67조 토큰  
  - **아키텍처**  
    - Transformer 기반, 모든 파라미터를 추론 과정에 동시 활용(dense)  
    - 고품질 코드·수학 데이터 추가로 주요 벤치마크 점수 극대화(annealing)  
  - **특징**  
    - 대형 dense 모델 중 다운로드 가능한 최신 모델(오픈 소스)  
    - Meta가 공개적으로 데이터셋 구성을 밝히지 않으며, 일부 저작권 논란 데이터(Books3 등) 포함 가능성 있음  
    - 일부 평가에선 "어시스턴트 성향"이 강화되어, 순수 텍스트 엔진으로서의 역할과 약간의 차이  
- ## Llama 4 (2025)  
  - **가장 큰 모델**: 2조(2T) 파라미터 MoE(Mixture-of-Experts, 전문가 혼합 구조)  
    - **A288B 16E**: 활성 2.88억 파라미터, 16개 전문가, 전체 2조 파라미터 중 일부만 활성화  
  - **상황**  
    - 2T 모델은 미공개(내부 실험용), 파생/축소 버전만 외부 공개(maverick, scout 등)  
    - 파생 모델은 원본 대비 "지능"이 낮다는 평가가 많음  
    - 공개 과정에서 벤치마크 점수 조작 논란(lmarena 사건) 등으로 신뢰도 하락 및 팀 해체설  
  - **MoE 구조 특징**  
    - 일부 전문가 파라미터만 활성화해, dense 모델보다 같은 파라미터 수 대비 연산 효율 우수  
    - 초대형 모델도 실사용 가능(분산 환경·적은 리소스에서 활용)  
- # Llama의 의의 및 영향  
  - Llama 시리즈는 **오픈소스 생태계 확산**과 대형 언어 모델의 대중화를 이끌었음  
  - Llama-3.1 405B 공개를 기점으로 **GPT-3/4급 대형 모델 다운로드/실험이 현실화**  
  - MoE 구조 도입으로 초대형 모델의 학습·배포가 활발해짐(DeepSeek, Mixtral 등에도 영향)  
  - 다만, 최근 모델들은 벤치마크 최적화(annealing), 어시스턴트 성향 강화 등으로 "순수 언어 모델"로서의 특성 변화 논의가 있음  
  
### The desert – 오픈소스 대형 모델의 공백기와 변화  
  
- GPT-3 수준(1,750억 파라미터급) 이상의 대형 언어 모델을 오픈소스로 구할 수 없던 **긴 공백기**를 의미함  
- 이 시기(2020~2023년 중반)는 **70B 이하 llama 등 비교적 작은 모델**만 공개되어 있었고,   
  - 일부 프로젝트에서는 **작은 Llama(예: 70B)** 에 GPT-3가 생성한 합성 데이터로 파인튜닝하는 방식으로 성능을 끌어올리려 시도함  
  - 그러나 **AI가 만든 텍스트를 다시 AI가 학습**에 사용하면 데이터 품질 저하(데이터 "degeneration") 문제가 발생할 수 있음  
- **GPT-3 수준의 오픈 가중치 모델이 장기간 부재**했던 이유로,  
  - 학습 비용(수천~수만 개 GPU 인프라), 데이터 확보, 대형 파라미터 구조의 배포 난이도 등이 복합적으로 작용  
- **Llama-3.1 405B(4050억 dense 파라미터)** 모델이 공개되면서 본격적으로 초대형 모델의 오픈소스화가 시작됨  
  - 그 직전(2023년 12월) **Mistral의 Mixtral-8x7B**(MoE 구조, 총 560억 파라미터), 2024년 4월 **Mixtral-8x22B**(총 1,410억, 활성 390억 파라미터) 등  
    - MoE(전문가 혼합) 아키텍처를 활용해 GPT-3급 대형 모델을 비교적 적은 리소스로 훈련·배포 가능하게 만듦  
- **MoE** 구조는 여러 전문가 네트워크(Expert)를 두고, 한 번의 추론 시 일부만 활성화  
  - 이를 통해 dense 구조보다 적은 리소스(메모리·연산)로 대형 모델 운영이 가능함  
  - GPU 대수와 메모리 한계로 인해, MoE는 대형 오픈모델 대중화에 결정적 역할을 함  
  
### 최신 MoE(전문가 혼합) 대형 모델  
  
#### Deepseek V3 Base (2024)  
- 6,710억 파라미터(MoE), 활성 370억, 14.8조 고품질 토큰 학습  
- R1(추론 특화 모델)도 등장, 다운로드 가능 모델 중 최초로 GPT-4급 성능에 근접  
- 공개 직후 NVIDIA(NVDA) 주가가 일시 하락하는 등 시장에 큰 영향을 줌  
- 이후 중국계를 포함한 신흥 대형 MoE 모델들이 속속 출현  
  - 일부 모델은 멀티모달·다국어 지원을 위해 다양한 유형의 새로운 데이터를 학습에 도입함   
  
#### Databricks (DBRX, 2024년 3월)  
- 1,320억 총 파라미터, 활성 360억, 12조 토큰  
- 16개 전문가 중 4개 선택(미스트랄·그록 대비 더 세분화)  
  
#### Minimax (2025년 1월)  
- 4560억 총 파라미터, 활성 459억, 자체 reward labeler로 학습 데이터 품질 제어  
  
#### Dots (2025년 6월)  
- 1,430억 총 파라미터, 활성 140억, 11.2조 토큰, 32K 컨텍스트  
- top-6/128 전문가 구조, Qwen2.5-72B와 유사 성능  
  
#### Hunyuan (2025년 6월)  
- 800억 MoE, 활성 130억, 20조 토큰, 256K 컨텍스트  
- 8개의 비공유 전문가 활성, 공유 전문가 항상 활성  
  
#### Ernie (2025년 6월)  
- 4,240억 총 파라미터, 활성 470억, 수조 토큰  
  
### 결론 및 전망  
  
- 2024~2025년 기준, GPT-3급(1,750억) 이상 초대형 모델이 다양하게 공개되고 있음  
- 405B(4050억)가 최신 dense base 모델이지만, 최신 MoE 모델들도 대형화·다양화 중  
- **Dense vs MoE** 성능 비교는 아직 모호, 진정한 "지능"에 필요한 구조와 크기에 대한 논의 필요  
- 새로운 구조(RWKV, byte-latent, bitnet), 합성 데이터 활용 등도 실험되고 있으나, **순수 텍스트 엔진**으로서의 본질적 발전은 여전히 과제  
- 최근 대부분의 대형 모델이 "AI 어시스턴트" 역할로 fine-tune되는 경향, **대안적 LLM 탐구**가 필요한 시점

## Comments


### Comment 40917

- Author: neo
- Created: 2025-07-03T10:26:37+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=44442072)   
* 나는 순수하게 기술적 의견이라기보다는, 이 다운로드 가능한 모델들 안에 **얼마나 많은 데이터**가 압축되어 있다는 사실에 여전히 감탄함을 멈추지 못하고 있음. 어제 무선 인터넷이 안 되는 비행기 안에서 Ollama를 통해 **gemma3:12b** 모델(8.1GB)을 다운로드해서 아이들과 함께 이것저것 질문해봤음. 최근 비디오게임이나 동물, 역사 등 다양한 질문에 완벽하진 않았지만, 이렇게 작은 파일 안에 인류의 지식이 이 정도로 담겨 있고, 오프라인에서도 쓸 수 있다는 점이 정말 대단하다고 느꼈음. 손실 압축이긴 하지만 인류 지식을 이렇게 작게 압축할 수 있다는 점이 놀라움  
  
  * 언어 모델이 얼마나 강력한 **압축 도구**가 될 수 있는지 정말 흥미롭게 생각함. 모델을 **어시스턴트(assistant)** 용도로 훈련시키면, 일반 텍스트보다 어시스턴트 대화 기록을 더 잘 압축함. UncheatableEval이라는 평가가 있는데, 여기서 언어 모델의 압축 능력을 다양한 과제에 적용하여 파악할 수 있음. 이 평가 기준은 사실상 '속일 수 없는' 테스트임. 압축 성능은 게임처럼 편법을 쓸 수 없는 진정한 벤치마크라고 생각함  
  
  * 오프라인에서 다양한 자료를 내려받아 쓸 수 있는 **Kiwix 프로젝트**를 추천함. 인터넷 접속이 불안정하거나 없는 곳을 위해 자료가 미리 탑재된 기기도 제공하고 있음  
  
  * 참고로 영어 Wikipedia 기준(2025년 6월 26일), **7백만 개** 이상의 문서와 6천3백만 페이지가 있음. 텍스트만 약 **156GB**이고, 모든 버전을 합치면 데이터베이스 전체 용량은 약 **26TB**에 달함  
  
  * 8.1GB는 정말 큰 용량임. **6,480억(64,800,000,000) 비트**인데, 100비트, 1,000비트는 상상할 수 있을 것 같지만 1만, 100만, 6,400만, 이것의 1,000배인 이 숫자는 정말 엄청난 크기라고 체감함  
  
  * 정보 이론이나 압축 관점에서 **언어 모델**을 연구하는 분야는 아직 작지만, 효율성과 확장성을 위해 점점 더 중요해지고 있음. 오늘 관련 토론을 진행했으니 관심 있는 분들은 참고해보기 바람  
  
* Deepseek v1은 약 6700억 파라미터에, **물리적 크기 1.4TB** 정도임. 지금까지 디지털화된 모든 책을 압축하면 몇 TB, 공개된 웹은 약 50TB, 영어 전자 텍스트 전부를 zip으로 묶으면 O(100TB) 근방일 것이라 예측함. 현재 모델 크기는 전체 중 **1% 수준**이고, 이제는 크기를 더 키우는 것이 성능을 더 이상 기대만큼 올려주지 않는 구간에 진입한 것 같음(gpt4.5 vs 4o 참고). 이런 이유로 최근에는 '추론형(reasoning) 모델'로 인해 컴퓨팅 비용이 **추론 시간(inference)** 쪽으로 이동하고 있음. 추가적인 효용을 얻으려면 앞으로는 특정 도메인에 초점을 맞춘 **특화(특수화) 모델**로 진화할 것으로 예상함. 고품질 오픈소스 모델을 위한 **1TB 인퍼런스 VRAM**이 중기적인 타겟이 될 수 있을 것이라 생각함. 중소기업(SME) 수준에서도 손에 닿는 스펙임(약 250B 파라미터 예상)  
  
  * 이미지와 영상을 추가하면 위의 예측 값들이 640KB면 충분하다는 예전 말처럼 들릴 수도 있음. 이후에는 로봇이 스스로 세상을 탐험하면서 데이터를 확보한다면 더 많은 정보가 쌓일 것임. 진지하게 말하면 이미지 및 인터랙션 데이터 추가는 텍스트 생성에도 **상당한 효용**이 있을 것임  
  
  * 실제 수치를 한 번 계산해 보았음. 논문 1억 5700만 편, 책 5200만 권 기준으로 평균 논문 1만 단어, 책 10만 단어로 잡았고, 표본 책 데이터로 압축률을 산출함. **비압축 상태 약 30TB, 압축 시 5.5TB** 수준임. 2TB 마이크로SD 3개(총 750달러)면 저장 가능함  
  
  * 작은 지적사항인데, 고정된 저장 용량에 대하여 big O 표기법(O(100TB))을 쓰는 것은 적합하지 않다고 생각함  
  
  * 혹시 **50TB**가 미국 의회도서관 Library of Congress 기준인지 물어봄. 인터넷 전체는 훨씬 클 것임  
  
  * '모든 디지털화된 책이 수 TB로 압축된다, 공개 웹은 50TB'라는 수치는 어디서 나온 것인지 궁금함. 출처가 있다면 보고 싶음. 예전에 세기 전까지의 문자 기록물이 약 50MB라는 글을 읽은 적 있는데, 출처를 찾을 수 없어 혹시 잘못 기억하는 것일 수 있음  
  
* Gemma, Gemini 시리즈 모델(Google)이 빠져 있음. 그리고 **T5 시리즈**는 전이 학습 및 이 분야 확산에 중요한 역할을 했는데 언급이 없는 것도 아쉬움. T5는 많은 개념의 시초라 할 수 있음  
  
  * Gemma 모델은 **용량이 작아서 리스트에 포함되지 않은 것**임. T5는 역사적으로 아주 중요하지만 크기가 11B 미만이라서 따로 많은 언급을 하지 않음. 그래도 참 의미 있고 재미있는 모델임  
  
- 시각적으로 보고 싶다면, 연도별 파라미터 총합을 그래프로 정리한 자료가 있음 [Total Parameters vs. Release Year by Family](https://app.charts.quesma.com/s/rmyk38)  
  
  - 이 그래프는 GPT-3가 얼마나 큰 도약이었고, 이후 오랜 시간 아무도 그 수준을 따라잡지 못했음을 아주 명확하게 보여주는 시각화 자료임  
  
  - 정말 멋진 자료임. 만들어줘서 고마움. 본인 게시글 코멘트에 차트 스크린샷과 링크, 크레딧을 남겨둠  
  
- 정말 좋은 글임. 다만, 이런 초거대 언어 모델만이 최고의 혁신인 것처럼 전제하는 점이 있음. 대형 플레이어들이 그간 꽤 조용했는데, 외부에서 볼 때 OpenAI는 그들의 행동을 통해 살짝 힌트만 줬음. 훨씬 더 큰 모델을 만들었으나 결과가 실망스러워서 조용히 실험을 중단함. 실제로 가장 강력한 최전선 reasoning 모델들이, 공개된 거대 모델보다 오히려 더 작은 경우가 있을 수 있음  
  
- 아이러니한 상황임. 오픈소스 커뮤니티가 GPT-3(175B)와 맞추기 위해 30~70B 모델, RLHF, 합성 데이터 등 다양한 시도를 했지만 격차가 여전히 있었음. 결국 **모델 본연의 크기가 정말 중요하다는 게 밝혀졌으며**, 진정으로 거대한 dense(405B) 또는 MoE 모델(DeepSeek V3, DBRX 등)이 등장해야 공개랩 바깥에서도 GPT-4 수준 reasoning이 나왔음  
  
- "open-source 모델이 GPT-3 수준에 다가가기 위해 대부분 70B급 Llama를 **GPT-3이 생성한 합성 데이터로 학습시켰다**"란 부분의 주석에 **동의하지 못함**. 합성 데이터가 항상 성능 저하로 이어졌다면 AI 연구소들이 절대 쓰지 않을 것임. 실제로 합성 데이터를 활용해 더 좋은 모델을 만들고 있음. 아주 의도적으로 '본인 출력으로 학습 루프를 돌리는' 상황에선 성능 저하가 나온다는 논문이 있지만, 실제로 AI 연구소가 합성 데이터를 쓰는 방식과는 차이가 있음. 그 논문이 인기를 끄는 건, 마치 '스스로 꼬리를 먹고 멸망하는 AI'라는 컨셉이 너무 매력적이기 때문임  
  
  - 동의함. 특히, 더 작은 모델을 더 큰 모델의 출력으로 학습시키는 문맥에서 **distillation(지식 증류)은 매우 효과적인 기법**임. 개인적으로도 과거 Llama, Mistral 모델을 사람 데이터와 GPT-4 생성 데이터로 도메인 특화 튜닝했는데, (품질 좋은) 합성 데이터 추가 후 결과가 더 좋아졌음  
  
- 사람들이 **LLM을 손실 압축이라고 계속 반복하는 게 아쉬움**. 대략적으로는 맞는 비유일 수 있지만, 더 엄밀하고 흥미로운 사실은 LLM이 손실 없는(lossless) 압축 알고리듬으로도 기능한다는 점임. 두 가지 사례가 있음. 1) 어떤 텍스트도 LLM의 로그 우도에 근접하는 비용으로 산술 부호화를 쓸 수 있음(전제: 송신자와 수신자가 같은 LLM 파라미터를 갖고 있어야 함) 2) LLM과 SGD(학습코드)를 활용하면 손실 없는 압축을 구현할 수 있음(여기서 모델 파라미터는 설명 길이로 치지 않음) Jack Rae의 “compression for AGI” 자료를 참고할 만함  
  
  - 1번 관련, 고전 압축 기법도 송신자·수신자 모두 같은 대형 사전을 갖고 있다면 매우 효과적임  
  
- "1.61B" 이런 수치만으로는 얼마나 큰 파일인지 또는 VRAM이 얼마나 필요한지 감이 잘 안 옴. 실제 저장 공간과 하드웨어 요구사양, 내가 지금 구입하면 어느 선까지 돌릴 수 있는지, 10년 뒤엔 어떤 모델을 돌릴 수 있을지 궁금함  
  
  - **파라미터 하나에 1바이트(f8)면 1.6GB, 2바이트(f16)이면 2.3GB**임. GPU에 로드하는 것 외에 추가 메모리 소요도 있어서 대략 파라미터 수의 4배 정도를 잡는 것이 좋음. 즉,** 2B 파라미터라면 8GB VRAM 추천**  
  
  - 대부분의 모델은 16비트(2바이트)로 학습됨. 10억 파라미터 모델은 2GB. **실사용에는 더 작은 8비트 양자화로도 충분**하며, 보통 16비트에서 8비트로 줄여도 성능 손실이 거의 없음. 따라서 10억 모델은 1GB, 20B 모델은 20GB로 단순 계산이 됨. 더 낮은 비트(5비트, 4비트 등)로도 성능 저하가 크지 않으면 용도에 따라 충분히 실전 적용 가능함. 심지어 4비트로 직접 학습한 모델이 16비트에서 양자화한 모델보다 더 나은 품질을 보인다는 사례도 있음. 대용량 모델의 병목은 VRAM 용량이 아닌 대역폭임. 따라서 **VRAM이 많은 GPU가 중요**함. 128GB 시스템 RAM이 있어도 GPU-CPU 간 대역폭이 부족해 GPU 메모리를 넘어가면 오히려 CPU가 더 느림. GPU(예: RTX 5090)는 32GB VRAM, 대역폭 1Tb/s 수준. Apple M 시리즈는 512Gb/s, AMD Strix Halo는 128GB 통합 메모리와 256Gb/s 대역폭 제공. consumer 하드웨어로 LLM 돌리는 실제 경험은 Reddit r/LocalLLaMA 참고 가능. 다만 거기 활동은 범상치 않은 시도도 섞여 있으니 주의. 10년 뒤 상황은 예측 불가. TSMC, 삼성, 인텔 모두 하이퍼스케일러 수요에 맞춰 플래그십 GPU 양산에 몰두 중이고, 반도체 산업도 여러 변수(정치, 무역, AI, 블랙스완 등)로 예측이 어려운 국면임