ggml.ai, Hugging Face와 협력해 로컬 AI의 장기 발전 보장

(github.com/ggml-org)

1P by GN⁺ 21시간전 | ★ favorite | 댓글 1개

로컬 AI 생태계의 지속적 발전을 위해 llama.cpp의 창립팀인 ggml.ai가 Hugging Face에 합류함
ggml과 llama.cpp는 계속해서 오픈소스·커뮤니티 중심으로 운영되며, 팀은 전일제로 유지·지원 예정
Hugging Face는 프로젝트의 장기적 지속 가능성을 보장하고, 사용자 경험과 transformers 통합성 향상에 집중할 계획
협업을 통해 로컬 추론(Local Inference) 의 접근성과 배포 편의성을 높이고, 다양한 모델 아키텍처 지원을 강화함
오픈소스 초지능(superintelligence)을 전 세계가 접근 가능한 형태로 구축하는 장기 비전을 공유함

ggml.ai의 Hugging Face 합류 발표

ggml.ai는 llama.cpp의 창립팀으로, 미래의 AI를 진정으로 개방형으로 유지하기 위해 Hugging Face에 합류함
- 목표는 ggml 및 llama.cpp 커뮤니티를 확장하고 지원하며, 로컬 AI의 지속적 성장을 촉진하는 것
ggml-org 프로젝트는 기존과 동일하게 오픈소스 및 커뮤니티 주도형으로 유지됨
ggml 팀은 ggml, llama.cpp 및 관련 오픈소스 프로젝트를 전일제로 유지·관리함
새로운 파트너십은 프로젝트의 장기적 지속 가능성을 보장하고, 사용자와 기여자에게 새로운 기회를 제공함
Hugging Face의 transformers 라이브러리와의 통합 개선을 통해 모델 지원 품질을 높일 예정

배경과 협력의 경과

ggml.ai는 2023년 설립 이후 ggml 머신러닝 라이브러리의 개발과 채택을 지원해 왔음
지난 3년간 소규모 팀이 오픈소스 커뮤니티를 성장시키고, ggml을 효율적 로컬 AI 추론의 표준으로 자리잡게 함
이 과정에서 Hugging Face는 가장 강력한 협력 파트너로 활동함
- HF 엔지니어들이 ggml과 llama.cpp에 핵심 기능 기여, 멀티모달 지원 추가, Inference Endpoints 통합, GGUF 포맷 호환성 개선 등을 수행
양측의 협력은 효율적이었으며, 커뮤니티 전체가 그 혜택을 받아 이번 합류는 협력의 공식화로 이어짐

오픈소스 프로젝트 및 커뮤니티의 변화

ggml과 llama.cpp의 운영 방식은 변화 없음
- 팀은 프로젝트 유지에 전념하며, 커뮤니티는 기술적·구조적 의사결정의 자율성을 유지함
Hugging Face는 지속 가능한 자원을 제공해 프로젝트의 성장 가능성을 높임
프로젝트는 계속해서 100% 오픈소스로 유지되며, 모델 출시 후 양자화(quantization) 지원 속도도 향상될 전망

기술적 초점

향후 공동 목표는 두 가지 핵심 방향으로 설정됨
- Hugging Face transformers와의 원클릭 통합
  - transformers는 AI 모델 정의의 표준으로 자리잡았으며, 두 생태계 간 호환성 향상이 모델 지원 확대와 품질 관리에 필수적임
- ggml 기반 소프트웨어의 패키징 및 사용자 경험 개선
  - 로컬 추론이 클라우드 추론의 대안으로 부상함에 따라, 일반 사용자의 모델 배포·접근성을 단순화할 필요가 있음
  - llama.cpp를 보편적이고 어디서나 사용 가능한 형태로 만드는 것을 목표로 함

장기 비전

ggml.ai와 Hugging Face는 오픈소스 초지능(superintelligence) 을 전 세계가 접근할 수 있도록 구축하는 것을 공동 목표로 함
로컬 AI 커뮤니티와 함께 효율적 추론 스택을 개발해, 개인 기기에서도 최대 성능을 발휘하도록 지속 발전할 계획

커뮤니티 반응

Hugging Face 및 ggml 커뮤니티 구성원들은 축하와 기대의 메시지를 다수 남김
- “로컬 AI 생태계에 큰 진전”, “열린 AI 생태계에 중요한 소식” 등의 긍정적 반응
일부 사용자는 프로젝트의 독립성과 코드 소유권에 대한 명확한 설명을 요청함
또 다른 의견에서는 기업 인수에 따른 관할권 변화와 오픈소스 투명성에 대한 우려도 제기됨
전반적으로 커뮤니티는 이번 협력을 로컬 AI의 지속 성장 기반으로 평가함

▲

GN⁺ 21시간전 [-]

Hacker News 의견들

나는 HuggingFace가 진짜 의미의 “Open AI”라고 생각함
조용히 온프레미스 AI를 대중에게 확산시킨 몇 안 되는 영웅 중 하나라고 봄
예전엔 트래픽 비용이 비쌌던 시절을 기억하는데, 이렇게 많은 모델을 무료로 호스팅하는 게 신기함
지속 가능한 비즈니스 모델이 있길 바람. 이 생태계는 그들 없이는 훨씬 빈약해질 것임
Kimi나 GLM을 내부에서 돌리려면 여전히 가성비 좋은 하드웨어가 필요하지만, 적어도 가중치와 배포는 해결된 상태임
- Unsloth도 이런 숨은 영웅 중 하나로 넣어야 함
  문서화가 훌륭하고, 주요 포맷으로 고품질 quant를 빠르게 제공함. 신뢰할 수 있는 브랜드라고 생각함
- HF가 얼마나 많은 트래픽을 처리하는지 상상도 안 됨
  수백 GB짜리 모델을 자주 다운로드하는데, 주권형 AI 커뮤니티에 엄청난 서비스임
- SSD에서 가중치를 스트리밍하고 swap으로 KV 캐시를 확장하면 느리긴 하지만 거의 모든 기기에서 실행 가능함
  밤새 계산하는 용도라면 충분히 쓸 만하고, 연산 자원을 늘릴수록 점점 나아짐
- 왜 BitTorrent를 지원하지 않는지 모르겠음
  hf-torrent나 hf_transfer가 있긴 하지만 웹 UI에서 바로 쓸 수 있는 링크만큼 접근성이 좋지 않음
- 토렌트야말로 완벽한 사용 사례인데 왜 안 쓰는지 여전히 의문임
Georgi Gerganov와 llama.cpp가 로컬 모델 생태계에 끼친 영향은 과소평가할 수 없음
2023년 3월, 소비자용 노트북에서 LLaMA를 돌리며 혁명을 시작했음
당시 README에 “MacBook에서 4-bit 양자화로 모델을 돌리는 게 목표”라고 적혀 있었음
Hugging Face가 Transformers를 잘 관리해온 만큼, GGML도 같은 길을 걸을 거라 기대함
관련 글은 여기에 정리했음
- 왜 항상 네 댓글이 상단에 고정되는지 궁금함
HuggingFace가 세상에 이렇게 많은 선한 영향을 주면서도 수익을 낸다는 게 놀라움
비즈니스 모델이 얼마나 탄탄한지, 장기적으로 지속 가능한지, 언젠가 “팔려버릴” 가능성이 있는지 궁금함
- 최근 FT 기사 “Why AI start-up Hugging Face turned down a $500mn Nvidia deal”이 참고할 만함
  기사 링크
- 비즈니스 모델은 사실상 GitHub과 유사함
  무료로 커뮤니티를 키우고, 기업에는 프라이빗 버전을 판매함. 이미 흑자 상태임
- 유료 호스팅(enterprise)과 컨설팅 서비스도 있음
  꽤 탄탄한 기반이라고 생각함
- “절대 팔리지 않을 거야”라는 말은 믿기 어려움
  AMD, Nvidia, Intel, IBM, Qualcomm 같은 투자자들이 사용자 자율성을 위해 싸운다는 건 좀 아이러니함
- 예전에 튜토리얼 때문에 HuggingFace를 써봤는데, 가입 시 카드 정보를 요구했고 한 달 뒤 청구서가 날아왔음
  어떤 서비스에 대한 요금인지 몰라서 계정을 취소했음. 불투명한 결제 과정이 불쾌했음
HuggingFace는 AI 분야의 조용한 GOAT임
커뮤니티와 플랫폼이 훌륭함
- 불투명한 상술 없이 열린 플랫폼을 만들고도 수익을 내는 게 놀라움
“커뮤니티는 자율적으로 운영되고 100% 오픈소스로 남을 것”이라는 말이 사실이길 바람
하지만 결국 비즈니스 이해관계가 이길 가능성이 큼
Llama.cpp는 로컬 추론의 사실상 표준이 되었고, 많은 프로젝트가 여기에 의존함
특정 기업이 이를 통제하면 로컬 LLM 생태계 전체를 통제하게 됨
Hugging Face가 지금은 좋아 보여도, 예전의 Google도 그랬음
잠금 효과(lock-in) 를 피하려면 독립 비영리단체가 관리하거나 경쟁 프로젝트가 필요함
- Llama.cpp는 오픈소스라 누구나 포크할 수 있음
  “통제”는 특정 기능 개발을 돕는 수준에 그침
ggml 팀이 양자화 기술을 모두에게 공개한 점이 정말 고마움
그들의 노력이 큰 변화를 만들었음
2023년부터 GitHub로 ggml/llama.cpp/Georgi를 후원해왔는데, 이제 좋은 둥지를 찾은 것 같아 기쁨
그래서 후원을 종료하려 함
HuggingFace와 GGML의 결합은 완벽한 조합처럼 보임
오히려 더 일찍 일어났어야 했다고 생각함
지금은 로컬 AI의 골짜기 시기지만, 2~3년 안에 폭발적으로 성장할 거라 기대함
- 사실 HuggingFace는 이미 프로젝트를 많이 지원해왔음
  @ngxson 같은 HF 멤버들이 llama.cpp의 주요 기여자임
MacBook M1 8GB 같은 저사양 시스템에서 Docker로 모델을 효율적으로 돌릴 방법을 찾고 있음
Cybersecurity-BaronLLM 같은 모델이 멋져 보이지만, 결국 내 노트북은 히터가 되어버림
더 강력한 하드웨어를 사야 하는 걸까?
- 8GB로는 복잡한 추론은 어렵지만, 소형 모델은 가능함
  Whisper, SmolVLM, Phi-3-mini, Gemma3 같은 모델을 추천함
  home-llm 예시 참고
  Mac에서는 Ollama나 MLX를 쓰면 좋고, Docker Desktop이나 Colima로 VM을 구성할 수 있음
  8GB면 초당 5~10토큰, 32GB면 50토큰 정도 가능함. 그래서 RAM 부족이 문제임
- 결국 충분히 강력한 시스템이 필요함
  작은 모델이나 양자화된 모델을 쓰거나, 더 강한 하드웨어를 사거나 빌려야 함
  Docker 없이 LM Studio로 시작해보는 것도 좋음
- 8GB면 2bit 수준의 강한 양자화로 32B 모델까지 돌릴 수 있음
  완벽하진 않지만, 큰 파라미터보다 낫다고 생각함
- 이런 질문은 r/LocalLLM에서 더 잘 답변받을 수 있음
- 8GB로도 아주 작은 gguf 모델을 CPU에서 llamafile로 돌릴 수 있음
  느리고 품질이 낮지만 가능함
AI 개발에 어떻게 현실적으로 참여할 수 있을지 고민 중임
회사에서는 Copilot만 쓰고 있어서 AI 개발 생태계와 동떨어진 느낌임
Java/React 풀스택 배경이고, Python도 조금 다룸
LLM from scratch를 해볼지, Google ML Crash Course나 Nvidia 자격증을 따볼지 고민 중임
조언을 구함
- 목표가 명확하지 않다면, 흥미 있는 작은 프로젝트를 직접 만들어보는 게 좋음
  처음부터 LLM으로 시작하지 말고, 그래픽 등 관심 분야에서 작게 시작할 것임
- 모델 파인튜닝이나 지식 증류(distillation) 를 공부해보길 추천함
  Unsloth에 무료 Colab 가이드가 잘 정리되어 있음

답변달기