ggml.ai, Hugging Face와 협력해 로컬 AI의 장기 발전 보장
(github.com/ggml-org)-
로컬 AI 생태계의 지속적 발전을 위해
llama.cpp의 창립팀인 ggml.ai가 Hugging Face에 합류함 -
ggml과llama.cpp는 계속해서 오픈소스·커뮤니티 중심으로 운영되며, 팀은 전일제로 유지·지원 예정 - Hugging Face는 프로젝트의 장기적 지속 가능성을 보장하고, 사용자 경험과 transformers 통합성 향상에 집중할 계획
- 협업을 통해 로컬 추론(Local Inference) 의 접근성과 배포 편의성을 높이고, 다양한 모델 아키텍처 지원을 강화함
- 오픈소스 초지능(superintelligence)을 전 세계가 접근 가능한 형태로 구축하는 장기 비전을 공유함
ggml.ai의 Hugging Face 합류 발표
- ggml.ai는
llama.cpp의 창립팀으로, 미래의 AI를 진정으로 개방형으로 유지하기 위해 Hugging Face에 합류함- 목표는
ggml및llama.cpp커뮤니티를 확장하고 지원하며, 로컬 AI의 지속적 성장을 촉진하는 것
- 목표는
-
ggml-org프로젝트는 기존과 동일하게 오픈소스 및 커뮤니티 주도형으로 유지됨 - ggml 팀은
ggml,llama.cpp및 관련 오픈소스 프로젝트를 전일제로 유지·관리함 - 새로운 파트너십은 프로젝트의 장기적 지속 가능성을 보장하고, 사용자와 기여자에게 새로운 기회를 제공함
- Hugging Face의
transformers라이브러리와의 통합 개선을 통해 모델 지원 품질을 높일 예정
배경과 협력의 경과
- ggml.ai는 2023년 설립 이후
ggml머신러닝 라이브러리의 개발과 채택을 지원해 왔음 - 지난 3년간 소규모 팀이 오픈소스 커뮤니티를 성장시키고,
ggml을 효율적 로컬 AI 추론의 표준으로 자리잡게 함 - 이 과정에서 Hugging Face는 가장 강력한 협력 파트너로 활동함
- HF 엔지니어들이
ggml과llama.cpp에 핵심 기능 기여, 멀티모달 지원 추가, Inference Endpoints 통합, GGUF 포맷 호환성 개선 등을 수행
- HF 엔지니어들이
- 양측의 협력은 효율적이었으며, 커뮤니티 전체가 그 혜택을 받아 이번 합류는 협력의 공식화로 이어짐
오픈소스 프로젝트 및 커뮤니티의 변화
-
ggml과llama.cpp의 운영 방식은 변화 없음- 팀은 프로젝트 유지에 전념하며, 커뮤니티는 기술적·구조적 의사결정의 자율성을 유지함
- Hugging Face는 지속 가능한 자원을 제공해 프로젝트의 성장 가능성을 높임
- 프로젝트는 계속해서 100% 오픈소스로 유지되며, 모델 출시 후 양자화(quantization) 지원 속도도 향상될 전망
기술적 초점
- 향후 공동 목표는 두 가지 핵심 방향으로 설정됨
-
Hugging Face transformers와의 원클릭 통합
-
transformers는 AI 모델 정의의 표준으로 자리잡았으며, 두 생태계 간 호환성 향상이 모델 지원 확대와 품질 관리에 필수적임
-
-
ggml 기반 소프트웨어의 패키징 및 사용자 경험 개선
- 로컬 추론이 클라우드 추론의 대안으로 부상함에 따라, 일반 사용자의 모델 배포·접근성을 단순화할 필요가 있음
-
llama.cpp를 보편적이고 어디서나 사용 가능한 형태로 만드는 것을 목표로 함
-
Hugging Face transformers와의 원클릭 통합
장기 비전
- ggml.ai와 Hugging Face는 오픈소스 초지능(superintelligence) 을 전 세계가 접근할 수 있도록 구축하는 것을 공동 목표로 함
- 로컬 AI 커뮤니티와 함께 효율적 추론 스택을 개발해, 개인 기기에서도 최대 성능을 발휘하도록 지속 발전할 계획
커뮤니티 반응
- Hugging Face 및 ggml 커뮤니티 구성원들은 축하와 기대의 메시지를 다수 남김
- “로컬 AI 생태계에 큰 진전”, “열린 AI 생태계에 중요한 소식” 등의 긍정적 반응
- 일부 사용자는 프로젝트의 독립성과 코드 소유권에 대한 명확한 설명을 요청함
- 또 다른 의견에서는 기업 인수에 따른 관할권 변화와 오픈소스 투명성에 대한 우려도 제기됨
- 전반적으로 커뮤니티는 이번 협력을 로컬 AI의 지속 성장 기반으로 평가함
Hacker News 의견들
-
나는 HuggingFace가 진짜 의미의 “Open AI”라고 생각함
조용히 온프레미스 AI를 대중에게 확산시킨 몇 안 되는 영웅 중 하나라고 봄
예전엔 트래픽 비용이 비쌌던 시절을 기억하는데, 이렇게 많은 모델을 무료로 호스팅하는 게 신기함
지속 가능한 비즈니스 모델이 있길 바람. 이 생태계는 그들 없이는 훨씬 빈약해질 것임
Kimi나 GLM을 내부에서 돌리려면 여전히 가성비 좋은 하드웨어가 필요하지만, 적어도 가중치와 배포는 해결된 상태임-
Unsloth도 이런 숨은 영웅 중 하나로 넣어야 함
문서화가 훌륭하고, 주요 포맷으로 고품질 quant를 빠르게 제공함. 신뢰할 수 있는 브랜드라고 생각함 - HF가 얼마나 많은 트래픽을 처리하는지 상상도 안 됨
수백 GB짜리 모델을 자주 다운로드하는데, 주권형 AI 커뮤니티에 엄청난 서비스임 - SSD에서 가중치를 스트리밍하고 swap으로 KV 캐시를 확장하면 느리긴 하지만 거의 모든 기기에서 실행 가능함
밤새 계산하는 용도라면 충분히 쓸 만하고, 연산 자원을 늘릴수록 점점 나아짐 - 왜 BitTorrent를 지원하지 않는지 모르겠음
hf-torrent나 hf_transfer가 있긴 하지만 웹 UI에서 바로 쓸 수 있는 링크만큼 접근성이 좋지 않음 - 토렌트야말로 완벽한 사용 사례인데 왜 안 쓰는지 여전히 의문임
-
Unsloth도 이런 숨은 영웅 중 하나로 넣어야 함
-
Georgi Gerganov와 llama.cpp가 로컬 모델 생태계에 끼친 영향은 과소평가할 수 없음
2023년 3월, 소비자용 노트북에서 LLaMA를 돌리며 혁명을 시작했음
당시 README에 “MacBook에서 4-bit 양자화로 모델을 돌리는 게 목표”라고 적혀 있었음
Hugging Face가 Transformers를 잘 관리해온 만큼, GGML도 같은 길을 걸을 거라 기대함
관련 글은 여기에 정리했음- 왜 항상 네 댓글이 상단에 고정되는지 궁금함
-
HuggingFace가 세상에 이렇게 많은 선한 영향을 주면서도 수익을 낸다는 게 놀라움
비즈니스 모델이 얼마나 탄탄한지, 장기적으로 지속 가능한지, 언젠가 “팔려버릴” 가능성이 있는지 궁금함- 최근 FT 기사 “Why AI start-up Hugging Face turned down a $500mn Nvidia deal”이 참고할 만함
기사 링크 - 비즈니스 모델은 사실상 GitHub과 유사함
무료로 커뮤니티를 키우고, 기업에는 프라이빗 버전을 판매함. 이미 흑자 상태임 - 유료 호스팅(enterprise)과 컨설팅 서비스도 있음
꽤 탄탄한 기반이라고 생각함 - “절대 팔리지 않을 거야”라는 말은 믿기 어려움
AMD, Nvidia, Intel, IBM, Qualcomm 같은 투자자들이 사용자 자율성을 위해 싸운다는 건 좀 아이러니함 - 예전에 튜토리얼 때문에 HuggingFace를 써봤는데, 가입 시 카드 정보를 요구했고 한 달 뒤 청구서가 날아왔음
어떤 서비스에 대한 요금인지 몰라서 계정을 취소했음. 불투명한 결제 과정이 불쾌했음
- 최근 FT 기사 “Why AI start-up Hugging Face turned down a $500mn Nvidia deal”이 참고할 만함
-
HuggingFace는 AI 분야의 조용한 GOAT임
커뮤니티와 플랫폼이 훌륭함- 불투명한 상술 없이 열린 플랫폼을 만들고도 수익을 내는 게 놀라움
-
“커뮤니티는 자율적으로 운영되고 100% 오픈소스로 남을 것”이라는 말이 사실이길 바람
하지만 결국 비즈니스 이해관계가 이길 가능성이 큼
Llama.cpp는 로컬 추론의 사실상 표준이 되었고, 많은 프로젝트가 여기에 의존함
특정 기업이 이를 통제하면 로컬 LLM 생태계 전체를 통제하게 됨
Hugging Face가 지금은 좋아 보여도, 예전의 Google도 그랬음
잠금 효과(lock-in) 를 피하려면 독립 비영리단체가 관리하거나 경쟁 프로젝트가 필요함- Llama.cpp는 오픈소스라 누구나 포크할 수 있음
“통제”는 특정 기능 개발을 돕는 수준에 그침
- Llama.cpp는 오픈소스라 누구나 포크할 수 있음
-
ggml 팀이 양자화 기술을 모두에게 공개한 점이 정말 고마움
그들의 노력이 큰 변화를 만들었음 -
2023년부터 GitHub로 ggml/llama.cpp/Georgi를 후원해왔는데, 이제 좋은 둥지를 찾은 것 같아 기쁨
그래서 후원을 종료하려 함 -
HuggingFace와 GGML의 결합은 완벽한 조합처럼 보임
오히려 더 일찍 일어났어야 했다고 생각함
지금은 로컬 AI의 골짜기 시기지만, 2~3년 안에 폭발적으로 성장할 거라 기대함- 사실 HuggingFace는 이미 프로젝트를 많이 지원해왔음
@ngxson 같은 HF 멤버들이 llama.cpp의 주요 기여자임
- 사실 HuggingFace는 이미 프로젝트를 많이 지원해왔음
-
MacBook M1 8GB 같은 저사양 시스템에서 Docker로 모델을 효율적으로 돌릴 방법을 찾고 있음
Cybersecurity-BaronLLM 같은 모델이 멋져 보이지만, 결국 내 노트북은 히터가 되어버림
더 강력한 하드웨어를 사야 하는 걸까?- 8GB로는 복잡한 추론은 어렵지만, 소형 모델은 가능함
Whisper, SmolVLM, Phi-3-mini, Gemma3 같은 모델을 추천함
home-llm 예시 참고
Mac에서는 Ollama나 MLX를 쓰면 좋고, Docker Desktop이나 Colima로 VM을 구성할 수 있음
8GB면 초당 5~10토큰, 32GB면 50토큰 정도 가능함. 그래서 RAM 부족이 문제임 - 결국 충분히 강력한 시스템이 필요함
작은 모델이나 양자화된 모델을 쓰거나, 더 강한 하드웨어를 사거나 빌려야 함
Docker 없이 LM Studio로 시작해보는 것도 좋음 - 8GB면 2bit 수준의 강한 양자화로 32B 모델까지 돌릴 수 있음
완벽하진 않지만, 큰 파라미터보다 낫다고 생각함 - 이런 질문은 r/LocalLLM에서 더 잘 답변받을 수 있음
- 8GB로도 아주 작은 gguf 모델을 CPU에서 llamafile로 돌릴 수 있음
느리고 품질이 낮지만 가능함
- 8GB로는 복잡한 추론은 어렵지만, 소형 모델은 가능함
-
AI 개발에 어떻게 현실적으로 참여할 수 있을지 고민 중임
회사에서는 Copilot만 쓰고 있어서 AI 개발 생태계와 동떨어진 느낌임
Java/React 풀스택 배경이고, Python도 조금 다룸
LLM from scratch를 해볼지, Google ML Crash Course나 Nvidia 자격증을 따볼지 고민 중임
조언을 구함- 목표가 명확하지 않다면, 흥미 있는 작은 프로젝트를 직접 만들어보는 게 좋음
처음부터 LLM으로 시작하지 말고, 그래픽 등 관심 분야에서 작게 시작할 것임 -
모델 파인튜닝이나 지식 증류(distillation) 를 공부해보길 추천함
Unsloth에 무료 Colab 가이드가 잘 정리되어 있음
- 목표가 명확하지 않다면, 흥미 있는 작은 프로젝트를 직접 만들어보는 게 좋음