LLM들은 얼마나 클까? (2025년 현황)

▲

GN⁺ 10달전 | parent | ★ favorite | on: LLM들은 얼마나 클까? (2025년 현황)(gist.github.com/rain-1)

Hacker News 의견

나는 순수하게 기술적 의견이라기보다는, 이 다운로드 가능한 모델들 안에 얼마나 많은 데이터가 압축되어 있다는 사실에 여전히 감탄함을 멈추지 못하고 있음. 어제 무선 인터넷이 안 되는 비행기 안에서 Ollama를 통해 gemma3:12b 모델(8.1GB)을 다운로드해서 아이들과 함께 이것저것 질문해봤음. 최근 비디오게임이나 동물, 역사 등 다양한 질문에 완벽하진 않았지만, 이렇게 작은 파일 안에 인류의 지식이 이 정도로 담겨 있고, 오프라인에서도 쓸 수 있다는 점이 정말 대단하다고 느꼈음. 손실 압축이긴 하지만 인류 지식을 이렇게 작게 압축할 수 있다는 점이 놀라움
- 언어 모델이 얼마나 강력한 압축 도구가 될 수 있는지 정말 흥미롭게 생각함. 모델을 어시스턴트(assistant) 용도로 훈련시키면, 일반 텍스트보다 어시스턴트 대화 기록을 더 잘 압축함. UncheatableEval이라는 평가가 있는데, 여기서 언어 모델의 압축 능력을 다양한 과제에 적용하여 파악할 수 있음. 이 평가 기준은 사실상 '속일 수 없는' 테스트임. 압축 성능은 게임처럼 편법을 쓸 수 없는 진정한 벤치마크라고 생각함
- 오프라인에서 다양한 자료를 내려받아 쓸 수 있는 Kiwix 프로젝트를 추천함. 인터넷 접속이 불안정하거나 없는 곳을 위해 자료가 미리 탑재된 기기도 제공하고 있음
- 참고로 영어 Wikipedia 기준(2025년 6월 26일), 7백만 개 이상의 문서와 6천3백만 페이지가 있음. 텍스트만 약 156GB이고, 모든 버전을 합치면 데이터베이스 전체 용량은 약 26TB에 달함
- 8.1GB는 정말 큰 용량임. 6,480억(64,800,000,000) 비트인데, 100비트, 1,000비트는 상상할 수 있을 것 같지만 1만, 100만, 6,400만, 이것의 1,000배인 이 숫자는 정말 엄청난 크기라고 체감함
- 정보 이론이나 압축 관점에서 언어 모델을 연구하는 분야는 아직 작지만, 효율성과 확장성을 위해 점점 더 중요해지고 있음. 오늘 관련 토론을 진행했으니 관심 있는 분들은 참고해보기 바람
Deepseek v1은 약 6700억 파라미터에, 물리적 크기 1.4TB 정도임. 지금까지 디지털화된 모든 책을 압축하면 몇 TB, 공개된 웹은 약 50TB, 영어 전자 텍스트 전부를 zip으로 묶으면 O(100TB) 근방일 것이라 예측함. 현재 모델 크기는 전체 중 1% 수준이고, 이제는 크기를 더 키우는 것이 성능을 더 이상 기대만큼 올려주지 않는 구간에 진입한 것 같음(gpt4.5 vs 4o 참고). 이런 이유로 최근에는 '추론형(reasoning) 모델'로 인해 컴퓨팅 비용이 추론 시간(inference) 쪽으로 이동하고 있음. 추가적인 효용을 얻으려면 앞으로는 특정 도메인에 초점을 맞춘 특화(특수화) 모델로 진화할 것으로 예상함. 고품질 오픈소스 모델을 위한 1TB 인퍼런스 VRAM이 중기적인 타겟이 될 수 있을 것이라 생각함. 중소기업(SME) 수준에서도 손에 닿는 스펙임(약 250B 파라미터 예상)
- 이미지와 영상을 추가하면 위의 예측 값들이 640KB면 충분하다는 예전 말처럼 들릴 수도 있음. 이후에는 로봇이 스스로 세상을 탐험하면서 데이터를 확보한다면 더 많은 정보가 쌓일 것임. 진지하게 말하면 이미지 및 인터랙션 데이터 추가는 텍스트 생성에도 상당한 효용이 있을 것임
- 실제 수치를 한 번 계산해 보았음. 논문 1억 5700만 편, 책 5200만 권 기준으로 평균 논문 1만 단어, 책 10만 단어로 잡았고, 표본 책 데이터로 압축률을 산출함. 비압축 상태 약 30TB, 압축 시 5.5TB 수준임. 2TB 마이크로SD 3개(총 750달러)면 저장 가능함
- 작은 지적사항인데, 고정된 저장 용량에 대하여 big O 표기법(O(100TB))을 쓰는 것은 적합하지 않다고 생각함
- 혹시 50TB가 미국 의회도서관 Library of Congress 기준인지 물어봄. 인터넷 전체는 훨씬 클 것임
- '모든 디지털화된 책이 수 TB로 압축된다, 공개 웹은 50TB'라는 수치는 어디서 나온 것인지 궁금함. 출처가 있다면 보고 싶음. 예전에 세기 전까지의 문자 기록물이 약 50MB라는 글을 읽은 적 있는데, 출처를 찾을 수 없어 혹시 잘못 기억하는 것일 수 있음
Gemma, Gemini 시리즈 모델(Google)이 빠져 있음. 그리고 T5 시리즈는 전이 학습 및 이 분야 확산에 중요한 역할을 했는데 언급이 없는 것도 아쉬움. T5는 많은 개념의 시초라 할 수 있음
- Gemma 모델은 용량이 작아서 리스트에 포함되지 않은 것임. T5는 역사적으로 아주 중요하지만 크기가 11B 미만이라서 따로 많은 언급을 하지 않음. 그래도 참 의미 있고 재미있는 모델임

시각적으로 보고 싶다면, 연도별 파라미터 총합을 그래프로 정리한 자료가 있음 Total Parameters vs. Release Year by Family
- 이 그래프는 GPT-3가 얼마나 큰 도약이었고, 이후 오랜 시간 아무도 그 수준을 따라잡지 못했음을 아주 명확하게 보여주는 시각화 자료임
- 정말 멋진 자료임. 만들어줘서 고마움. 본인 게시글 코멘트에 차트 스크린샷과 링크, 크레딧을 남겨둠
정말 좋은 글임. 다만, 이런 초거대 언어 모델만이 최고의 혁신인 것처럼 전제하는 점이 있음. 대형 플레이어들이 그간 꽤 조용했는데, 외부에서 볼 때 OpenAI는 그들의 행동을 통해 살짝 힌트만 줬음. 훨씬 더 큰 모델을 만들었으나 결과가 실망스러워서 조용히 실험을 중단함. 실제로 가장 강력한 최전선 reasoning 모델들이, 공개된 거대 모델보다 오히려 더 작은 경우가 있을 수 있음
아이러니한 상황임. 오픈소스 커뮤니티가 GPT-3(175B)와 맞추기 위해 30~70B 모델, RLHF, 합성 데이터 등 다양한 시도를 했지만 격차가 여전히 있었음. 결국 모델 본연의 크기가 정말 중요하다는 게 밝혀졌으며, 진정으로 거대한 dense(405B) 또는 MoE 모델(DeepSeek V3, DBRX 등)이 등장해야 공개랩 바깥에서도 GPT-4 수준 reasoning이 나왔음
"open-source 모델이 GPT-3 수준에 다가가기 위해 대부분 70B급 Llama를 GPT-3이 생성한 합성 데이터로 학습시켰다"란 부분의 주석에 동의하지 못함. 합성 데이터가 항상 성능 저하로 이어졌다면 AI 연구소들이 절대 쓰지 않을 것임. 실제로 합성 데이터를 활용해 더 좋은 모델을 만들고 있음. 아주 의도적으로 '본인 출력으로 학습 루프를 돌리는' 상황에선 성능 저하가 나온다는 논문이 있지만, 실제로 AI 연구소가 합성 데이터를 쓰는 방식과는 차이가 있음. 그 논문이 인기를 끄는 건, 마치 '스스로 꼬리를 먹고 멸망하는 AI'라는 컨셉이 너무 매력적이기 때문임
- 동의함. 특히, 더 작은 모델을 더 큰 모델의 출력으로 학습시키는 문맥에서 distillation(지식 증류)은 매우 효과적인 기법임. 개인적으로도 과거 Llama, Mistral 모델을 사람 데이터와 GPT-4 생성 데이터로 도메인 특화 튜닝했는데, (품질 좋은) 합성 데이터 추가 후 결과가 더 좋아졌음
사람들이 LLM을 손실 압축이라고 계속 반복하는 게 아쉬움. 대략적으로는 맞는 비유일 수 있지만, 더 엄밀하고 흥미로운 사실은 LLM이 손실 없는(lossless) 압축 알고리듬으로도 기능한다는 점임. 두 가지 사례가 있음. 1) 어떤 텍스트도 LLM의 로그 우도에 근접하는 비용으로 산술 부호화를 쓸 수 있음(전제: 송신자와 수신자가 같은 LLM 파라미터를 갖고 있어야 함) 2) LLM과 SGD(학습코드)를 활용하면 손실 없는 압축을 구현할 수 있음(여기서 모델 파라미터는 설명 길이로 치지 않음) Jack Rae의 “compression for AGI” 자료를 참고할 만함
- 1번 관련, 고전 압축 기법도 송신자·수신자 모두 같은 대형 사전을 갖고 있다면 매우 효과적임
"1.61B" 이런 수치만으로는 얼마나 큰 파일인지 또는 VRAM이 얼마나 필요한지 감이 잘 안 옴. 실제 저장 공간과 하드웨어 요구사양, 내가 지금 구입하면 어느 선까지 돌릴 수 있는지, 10년 뒤엔 어떤 모델을 돌릴 수 있을지 궁금함
- 파라미터 하나에 1바이트(f8)면 1.6GB, 2바이트(f16)이면 2.3GB임. GPU에 로드하는 것 외에 추가 메모리 소요도 있어서 대략 파라미터 수의 4배 정도를 잡는 것이 좋음. 즉,** 2B 파라미터라면 8GB VRAM 추천**
- 대부분의 모델은 16비트(2바이트)로 학습됨. 10억 파라미터 모델은 2GB. 실사용에는 더 작은 8비트 양자화로도 충분하며, 보통 16비트에서 8비트로 줄여도 성능 손실이 거의 없음. 따라서 10억 모델은 1GB, 20B 모델은 20GB로 단순 계산이 됨. 더 낮은 비트(5비트, 4비트 등)로도 성능 저하가 크지 않으면 용도에 따라 충분히 실전 적용 가능함. 심지어 4비트로 직접 학습한 모델이 16비트에서 양자화한 모델보다 더 나은 품질을 보인다는 사례도 있음. 대용량 모델의 병목은 VRAM 용량이 아닌 대역폭임. 따라서 VRAM이 많은 GPU가 중요함. 128GB 시스템 RAM이 있어도 GPU-CPU 간 대역폭이 부족해 GPU 메모리를 넘어가면 오히려 CPU가 더 느림. GPU(예: RTX 5090)는 32GB VRAM, 대역폭 1Tb/s 수준. Apple M 시리즈는 512Gb/s, AMD Strix Halo는 128GB 통합 메모리와 256Gb/s 대역폭 제공. consumer 하드웨어로 LLM 돌리는 실제 경험은 Reddit r/LocalLLaMA 참고 가능. 다만 거기 활동은 범상치 않은 시도도 섞여 있으니 주의. 10년 뒤 상황은 예측 불가. TSMC, 삼성, 인텔 모두 하이퍼스케일러 수요에 맞춰 플래그십 GPU 양산에 몰두 중이고, 반도체 산업도 여러 변수(정치, 무역, AI, 블랙스완 등)로 예측이 어려운 국면임