LLM들은 얼마나 클까? (2025년 현황)
(gist.github.com/rain-1)- GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan 등 주요 대형 언어 모델의 파라미터(매개변수) 규모와 구조에 대한 객관적 정보와 변천사 정리
- GPT-2 (2019년) 는 1.3억~16억 파라미터, GPT-3 (2020년) 는 1,750억(175B) 파라미터, Llama-3.1(2024년) 은 4050억(405B) 파라미터 등으로 대형 모델의 크기가 빠르게 증가함
- MoE(전문가 혼합) 구조의 등장으로 GPT-3급 이상 모델이 오픈 소스/다운로드 가능하게 되었으며, 대표적으로 DeepSeek V3 Base(6710억), ERNIE-4.5(4240억), Mixtral-8x22B(1410억) 등 다양한 초대형 모델들이 등장함
- Dense(모든 파라미터를 사용) 모델과 MoE(일부 전문가 파라미터만 활성화) 모델의 비교가 복잡해졌으며, 실질적인 "지능" 비교가 쉽지 않음
- 최근에는 다중 모달·다중 언어 지원, 새로운 아키텍처, 합성 데이터 활용 등 다양한 발전 트렌드가 나타남
- 이 문서는 최근 몇 년간 대형 언어 모델(LLM)의 기초 모델(베이스 모델) 규모 변화에 대한 사실 정보를 정리한 내용임
- 챗봇·어시스턴트가 아니라 텍스트 생성 엔진 본연의 모델에 초점을 맞추고 있음
역사
-
GPT-2(-medium, -large, -xl) (2019): 각각 1.37억, 3.8억, 8.12억, 16.1억 파라미터
- 약 40GB의 웹텍스트 데이터셋(10억 토큰 추정) 기반으로 훈련됨
- 사용된 사이트 목록은 domains.txt에서 확인 가능함
-
GPT-3(davinci, davinci-002) (2020): 1,750억 파라미터
- CommonCrawl, WebText2, Books1·2, Wikipedia 등 약 4000억 토큰 데이터로 훈련됨
- 대규모 A100 GPU 수천 대로 수개월간 학습 필요
- GPT-3.5, GPT-4 (2022, 2023): 아키텍처 및 데이터 관련 공식적 정보 비공개
Llama
- Llama는 Meta(구 Facebook)에서 개발한 대형 언어 모델 시리즈로, 오픈 소스화와 상대적으로 적은 리소스로도 활용 가능한 구조로 주목받음
- 모델 크기(파라미터 수) 와 학습 데이터, 아키텍처의 진화 과정이 LLM(대형 언어 모델) 오픈소스 트렌드를 이끌었음
-
Llama 1 (2023)
- 7B, 13B, 33B, 65B: 70억, 130억, 330억, 650억 파라미터 제공
- 학습 데이터: 1.4조(1.4T) 토큰의 대규모 텍스트(Books3, CommonCrawl 등)
- Llama 65B는 당시 오픈 모델 중 최대 규모였음
- Books3는 저작권 관련 법제 논의의 중요한 계기가 된 대규모 데이터임
-
특징
- 상대적으로 작은 GPU로도 실행 가능(65B도 8장 GPU로 동작)
- 오픈 가중치 배포로, 다양한 파생 모델과 커뮤니티 실험 확산
-
Llama 2 (2023 하반기)
- 공개 당시 70억, 130억, 700억 파라미터 제공(7B, 13B, 70B)
- 대화형(챗봇) 버전도 공개, fine-tuning 및 RLHF(강화학습) 등 지원
- 커뮤니티와 상업적 용도까지 허용되는 라이선스(단, 일부 제한)
-
Llama 3.1 (2024)
- 405B: 4050억 dense(모든 파라미터 사용) 파라미터
- 학습 데이터: 2.87조 토큰 + 8000억 롱 컨텍스트 + 4000만 annealing(고품질 코드/수학 등 추가) → 총 3.67조 토큰
-
아키텍처
- Transformer 기반, 모든 파라미터를 추론 과정에 동시 활용(dense)
- 고품질 코드·수학 데이터 추가로 주요 벤치마크 점수 극대화(annealing)
-
특징
- 대형 dense 모델 중 다운로드 가능한 최신 모델(오픈 소스)
- Meta가 공개적으로 데이터셋 구성을 밝히지 않으며, 일부 저작권 논란 데이터(Books3 등) 포함 가능성 있음
- 일부 평가에선 "어시스턴트 성향"이 강화되어, 순수 텍스트 엔진으로서의 역할과 약간의 차이
-
Llama 4 (2025)
-
가장 큰 모델: 2조(2T) 파라미터 MoE(Mixture-of-Experts, 전문가 혼합 구조)
- A288B 16E: 활성 2.88억 파라미터, 16개 전문가, 전체 2조 파라미터 중 일부만 활성화
-
상황
- 2T 모델은 미공개(내부 실험용), 파생/축소 버전만 외부 공개(maverick, scout 등)
- 파생 모델은 원본 대비 "지능"이 낮다는 평가가 많음
- 공개 과정에서 벤치마크 점수 조작 논란(lmarena 사건) 등으로 신뢰도 하락 및 팀 해체설
-
MoE 구조 특징
- 일부 전문가 파라미터만 활성화해, dense 모델보다 같은 파라미터 수 대비 연산 효율 우수
- 초대형 모델도 실사용 가능(분산 환경·적은 리소스에서 활용)
-
가장 큰 모델: 2조(2T) 파라미터 MoE(Mixture-of-Experts, 전문가 혼합 구조)
-
Llama의 의의 및 영향
- Llama 시리즈는 오픈소스 생태계 확산과 대형 언어 모델의 대중화를 이끌었음
- Llama-3.1 405B 공개를 기점으로 GPT-3/4급 대형 모델 다운로드/실험이 현실화
- MoE 구조 도입으로 초대형 모델의 학습·배포가 활발해짐(DeepSeek, Mixtral 등에도 영향)
- 다만, 최근 모델들은 벤치마크 최적화(annealing), 어시스턴트 성향 강화 등으로 "순수 언어 모델"로서의 특성 변화 논의가 있음
The desert – 오픈소스 대형 모델의 공백기와 변화
- GPT-3 수준(1,750억 파라미터급) 이상의 대형 언어 모델을 오픈소스로 구할 수 없던 긴 공백기를 의미함
- 이 시기(2020~2023년 중반)는 70B 이하 llama 등 비교적 작은 모델만 공개되어 있었고,
- 일부 프로젝트에서는 작은 Llama(예: 70B) 에 GPT-3가 생성한 합성 데이터로 파인튜닝하는 방식으로 성능을 끌어올리려 시도함
- 그러나 AI가 만든 텍스트를 다시 AI가 학습에 사용하면 데이터 품질 저하(데이터 "degeneration") 문제가 발생할 수 있음
-
GPT-3 수준의 오픈 가중치 모델이 장기간 부재했던 이유로,
- 학습 비용(수천~수만 개 GPU 인프라), 데이터 확보, 대형 파라미터 구조의 배포 난이도 등이 복합적으로 작용
-
Llama-3.1 405B(4050억 dense 파라미터) 모델이 공개되면서 본격적으로 초대형 모델의 오픈소스화가 시작됨
- 그 직전(2023년 12월) Mistral의 Mixtral-8x7B(MoE 구조, 총 560억 파라미터), 2024년 4월 Mixtral-8x22B(총 1,410억, 활성 390억 파라미터) 등
- MoE(전문가 혼합) 아키텍처를 활용해 GPT-3급 대형 모델을 비교적 적은 리소스로 훈련·배포 가능하게 만듦
- 그 직전(2023년 12월) Mistral의 Mixtral-8x7B(MoE 구조, 총 560억 파라미터), 2024년 4월 Mixtral-8x22B(총 1,410억, 활성 390억 파라미터) 등
-
MoE 구조는 여러 전문가 네트워크(Expert)를 두고, 한 번의 추론 시 일부만 활성화
- 이를 통해 dense 구조보다 적은 리소스(메모리·연산)로 대형 모델 운영이 가능함
- GPU 대수와 메모리 한계로 인해, MoE는 대형 오픈모델 대중화에 결정적 역할을 함
최신 MoE(전문가 혼합) 대형 모델
Deepseek V3 Base (2024)
- 6,710억 파라미터(MoE), 활성 370억, 14.8조 고품질 토큰 학습
- R1(추론 특화 모델)도 등장, 다운로드 가능 모델 중 최초로 GPT-4급 성능에 근접
- 공개 직후 NVIDIA(NVDA) 주가가 일시 하락하는 등 시장에 큰 영향을 줌
- 이후 중국계를 포함한 신흥 대형 MoE 모델들이 속속 출현
- 일부 모델은 멀티모달·다국어 지원을 위해 다양한 유형의 새로운 데이터를 학습에 도입함
Databricks (DBRX, 2024년 3월)
- 1,320억 총 파라미터, 활성 360억, 12조 토큰
- 16개 전문가 중 4개 선택(미스트랄·그록 대비 더 세분화)
Minimax (2025년 1월)
- 4560억 총 파라미터, 활성 459억, 자체 reward labeler로 학습 데이터 품질 제어
Dots (2025년 6월)
- 1,430억 총 파라미터, 활성 140억, 11.2조 토큰, 32K 컨텍스트
- top-6/128 전문가 구조, Qwen2.5-72B와 유사 성능
Hunyuan (2025년 6월)
- 800억 MoE, 활성 130억, 20조 토큰, 256K 컨텍스트
- 8개의 비공유 전문가 활성, 공유 전문가 항상 활성
Ernie (2025년 6월)
- 4,240억 총 파라미터, 활성 470억, 수조 토큰
결론 및 전망
- 2024~2025년 기준, GPT-3급(1,750억) 이상 초대형 모델이 다양하게 공개되고 있음
- 405B(4050억)가 최신 dense base 모델이지만, 최신 MoE 모델들도 대형화·다양화 중
- Dense vs MoE 성능 비교는 아직 모호, 진정한 "지능"에 필요한 구조와 크기에 대한 논의 필요
- 새로운 구조(RWKV, byte-latent, bitnet), 합성 데이터 활용 등도 실험되고 있으나, 순수 텍스트 엔진으로서의 본질적 발전은 여전히 과제
- 최근 대부분의 대형 모델이 "AI 어시스턴트" 역할로 fine-tune되는 경향, 대안적 LLM 탐구가 필요한 시점
Hacker News 의견
-
나는 순수하게 기술적 의견이라기보다는, 이 다운로드 가능한 모델들 안에 얼마나 많은 데이터가 압축되어 있다는 사실에 여전히 감탄함을 멈추지 못하고 있음. 어제 무선 인터넷이 안 되는 비행기 안에서 Ollama를 통해 gemma3:12b 모델(8.1GB)을 다운로드해서 아이들과 함께 이것저것 질문해봤음. 최근 비디오게임이나 동물, 역사 등 다양한 질문에 완벽하진 않았지만, 이렇게 작은 파일 안에 인류의 지식이 이 정도로 담겨 있고, 오프라인에서도 쓸 수 있다는 점이 정말 대단하다고 느꼈음. 손실 압축이긴 하지만 인류 지식을 이렇게 작게 압축할 수 있다는 점이 놀라움
-
언어 모델이 얼마나 강력한 압축 도구가 될 수 있는지 정말 흥미롭게 생각함. 모델을 어시스턴트(assistant) 용도로 훈련시키면, 일반 텍스트보다 어시스턴트 대화 기록을 더 잘 압축함. UncheatableEval이라는 평가가 있는데, 여기서 언어 모델의 압축 능력을 다양한 과제에 적용하여 파악할 수 있음. 이 평가 기준은 사실상 '속일 수 없는' 테스트임. 압축 성능은 게임처럼 편법을 쓸 수 없는 진정한 벤치마크라고 생각함
-
오프라인에서 다양한 자료를 내려받아 쓸 수 있는 Kiwix 프로젝트를 추천함. 인터넷 접속이 불안정하거나 없는 곳을 위해 자료가 미리 탑재된 기기도 제공하고 있음
-
참고로 영어 Wikipedia 기준(2025년 6월 26일), 7백만 개 이상의 문서와 6천3백만 페이지가 있음. 텍스트만 약 156GB이고, 모든 버전을 합치면 데이터베이스 전체 용량은 약 26TB에 달함
-
8.1GB는 정말 큰 용량임. 6,480억(64,800,000,000) 비트인데, 100비트, 1,000비트는 상상할 수 있을 것 같지만 1만, 100만, 6,400만, 이것의 1,000배인 이 숫자는 정말 엄청난 크기라고 체감함
-
정보 이론이나 압축 관점에서 언어 모델을 연구하는 분야는 아직 작지만, 효율성과 확장성을 위해 점점 더 중요해지고 있음. 오늘 관련 토론을 진행했으니 관심 있는 분들은 참고해보기 바람
-
-
Deepseek v1은 약 6700억 파라미터에, 물리적 크기 1.4TB 정도임. 지금까지 디지털화된 모든 책을 압축하면 몇 TB, 공개된 웹은 약 50TB, 영어 전자 텍스트 전부를 zip으로 묶으면 O(100TB) 근방일 것이라 예측함. 현재 모델 크기는 전체 중 1% 수준이고, 이제는 크기를 더 키우는 것이 성능을 더 이상 기대만큼 올려주지 않는 구간에 진입한 것 같음(gpt4.5 vs 4o 참고). 이런 이유로 최근에는 '추론형(reasoning) 모델'로 인해 컴퓨팅 비용이 추론 시간(inference) 쪽으로 이동하고 있음. 추가적인 효용을 얻으려면 앞으로는 특정 도메인에 초점을 맞춘 특화(특수화) 모델로 진화할 것으로 예상함. 고품질 오픈소스 모델을 위한 1TB 인퍼런스 VRAM이 중기적인 타겟이 될 수 있을 것이라 생각함. 중소기업(SME) 수준에서도 손에 닿는 스펙임(약 250B 파라미터 예상)
-
이미지와 영상을 추가하면 위의 예측 값들이 640KB면 충분하다는 예전 말처럼 들릴 수도 있음. 이후에는 로봇이 스스로 세상을 탐험하면서 데이터를 확보한다면 더 많은 정보가 쌓일 것임. 진지하게 말하면 이미지 및 인터랙션 데이터 추가는 텍스트 생성에도 상당한 효용이 있을 것임
-
실제 수치를 한 번 계산해 보았음. 논문 1억 5700만 편, 책 5200만 권 기준으로 평균 논문 1만 단어, 책 10만 단어로 잡았고, 표본 책 데이터로 압축률을 산출함. 비압축 상태 약 30TB, 압축 시 5.5TB 수준임. 2TB 마이크로SD 3개(총 750달러)면 저장 가능함
-
작은 지적사항인데, 고정된 저장 용량에 대하여 big O 표기법(O(100TB))을 쓰는 것은 적합하지 않다고 생각함
-
혹시 50TB가 미국 의회도서관 Library of Congress 기준인지 물어봄. 인터넷 전체는 훨씬 클 것임
-
'모든 디지털화된 책이 수 TB로 압축된다, 공개 웹은 50TB'라는 수치는 어디서 나온 것인지 궁금함. 출처가 있다면 보고 싶음. 예전에 세기 전까지의 문자 기록물이 약 50MB라는 글을 읽은 적 있는데, 출처를 찾을 수 없어 혹시 잘못 기억하는 것일 수 있음
-
-
Gemma, Gemini 시리즈 모델(Google)이 빠져 있음. 그리고 T5 시리즈는 전이 학습 및 이 분야 확산에 중요한 역할을 했는데 언급이 없는 것도 아쉬움. T5는 많은 개념의 시초라 할 수 있음
- Gemma 모델은 용량이 작아서 리스트에 포함되지 않은 것임. T5는 역사적으로 아주 중요하지만 크기가 11B 미만이라서 따로 많은 언급을 하지 않음. 그래도 참 의미 있고 재미있는 모델임
-
시각적으로 보고 싶다면, 연도별 파라미터 총합을 그래프로 정리한 자료가 있음 Total Parameters vs. Release Year by Family
-
이 그래프는 GPT-3가 얼마나 큰 도약이었고, 이후 오랜 시간 아무도 그 수준을 따라잡지 못했음을 아주 명확하게 보여주는 시각화 자료임
-
정말 멋진 자료임. 만들어줘서 고마움. 본인 게시글 코멘트에 차트 스크린샷과 링크, 크레딧을 남겨둠
-
-
정말 좋은 글임. 다만, 이런 초거대 언어 모델만이 최고의 혁신인 것처럼 전제하는 점이 있음. 대형 플레이어들이 그간 꽤 조용했는데, 외부에서 볼 때 OpenAI는 그들의 행동을 통해 살짝 힌트만 줬음. 훨씬 더 큰 모델을 만들었으나 결과가 실망스러워서 조용히 실험을 중단함. 실제로 가장 강력한 최전선 reasoning 모델들이, 공개된 거대 모델보다 오히려 더 작은 경우가 있을 수 있음
-
아이러니한 상황임. 오픈소스 커뮤니티가 GPT-3(175B)와 맞추기 위해 30~70B 모델, RLHF, 합성 데이터 등 다양한 시도를 했지만 격차가 여전히 있었음. 결국 모델 본연의 크기가 정말 중요하다는 게 밝혀졌으며, 진정으로 거대한 dense(405B) 또는 MoE 모델(DeepSeek V3, DBRX 등)이 등장해야 공개랩 바깥에서도 GPT-4 수준 reasoning이 나왔음
-
"open-source 모델이 GPT-3 수준에 다가가기 위해 대부분 70B급 Llama를 GPT-3이 생성한 합성 데이터로 학습시켰다"란 부분의 주석에 동의하지 못함. 합성 데이터가 항상 성능 저하로 이어졌다면 AI 연구소들이 절대 쓰지 않을 것임. 실제로 합성 데이터를 활용해 더 좋은 모델을 만들고 있음. 아주 의도적으로 '본인 출력으로 학습 루프를 돌리는' 상황에선 성능 저하가 나온다는 논문이 있지만, 실제로 AI 연구소가 합성 데이터를 쓰는 방식과는 차이가 있음. 그 논문이 인기를 끄는 건, 마치 '스스로 꼬리를 먹고 멸망하는 AI'라는 컨셉이 너무 매력적이기 때문임
- 동의함. 특히, 더 작은 모델을 더 큰 모델의 출력으로 학습시키는 문맥에서 distillation(지식 증류)은 매우 효과적인 기법임. 개인적으로도 과거 Llama, Mistral 모델을 사람 데이터와 GPT-4 생성 데이터로 도메인 특화 튜닝했는데, (품질 좋은) 합성 데이터 추가 후 결과가 더 좋아졌음
-
사람들이 LLM을 손실 압축이라고 계속 반복하는 게 아쉬움. 대략적으로는 맞는 비유일 수 있지만, 더 엄밀하고 흥미로운 사실은 LLM이 손실 없는(lossless) 압축 알고리듬으로도 기능한다는 점임. 두 가지 사례가 있음. 1) 어떤 텍스트도 LLM의 로그 우도에 근접하는 비용으로 산술 부호화를 쓸 수 있음(전제: 송신자와 수신자가 같은 LLM 파라미터를 갖고 있어야 함) 2) LLM과 SGD(학습코드)를 활용하면 손실 없는 압축을 구현할 수 있음(여기서 모델 파라미터는 설명 길이로 치지 않음) Jack Rae의 “compression for AGI” 자료를 참고할 만함
- 1번 관련, 고전 압축 기법도 송신자·수신자 모두 같은 대형 사전을 갖고 있다면 매우 효과적임
-
"1.61B" 이런 수치만으로는 얼마나 큰 파일인지 또는 VRAM이 얼마나 필요한지 감이 잘 안 옴. 실제 저장 공간과 하드웨어 요구사양, 내가 지금 구입하면 어느 선까지 돌릴 수 있는지, 10년 뒤엔 어떤 모델을 돌릴 수 있을지 궁금함
-
파라미터 하나에 1바이트(f8)면 1.6GB, 2바이트(f16)이면 2.3GB임. GPU에 로드하는 것 외에 추가 메모리 소요도 있어서 대략 파라미터 수의 4배 정도를 잡는 것이 좋음. 즉,** 2B 파라미터라면 8GB VRAM 추천**
-
대부분의 모델은 16비트(2바이트)로 학습됨. 10억 파라미터 모델은 2GB. 실사용에는 더 작은 8비트 양자화로도 충분하며, 보통 16비트에서 8비트로 줄여도 성능 손실이 거의 없음. 따라서 10억 모델은 1GB, 20B 모델은 20GB로 단순 계산이 됨. 더 낮은 비트(5비트, 4비트 등)로도 성능 저하가 크지 않으면 용도에 따라 충분히 실전 적용 가능함. 심지어 4비트로 직접 학습한 모델이 16비트에서 양자화한 모델보다 더 나은 품질을 보인다는 사례도 있음. 대용량 모델의 병목은 VRAM 용량이 아닌 대역폭임. 따라서 VRAM이 많은 GPU가 중요함. 128GB 시스템 RAM이 있어도 GPU-CPU 간 대역폭이 부족해 GPU 메모리를 넘어가면 오히려 CPU가 더 느림. GPU(예: RTX 5090)는 32GB VRAM, 대역폭 1Tb/s 수준. Apple M 시리즈는 512Gb/s, AMD Strix Halo는 128GB 통합 메모리와 256Gb/s 대역폭 제공. consumer 하드웨어로 LLM 돌리는 실제 경험은 Reddit r/LocalLLaMA 참고 가능. 다만 거기 활동은 범상치 않은 시도도 섞여 있으니 주의. 10년 뒤 상황은 예측 불가. TSMC, 삼성, 인텔 모두 하이퍼스케일러 수요에 맞춰 플래그십 GPU 양산에 몰두 중이고, 반도체 산업도 여러 변수(정치, 무역, AI, 블랙스완 등)로 예측이 어려운 국면임
-