Ollama Turbo

(ollama.com)

5P by GN⁺ 4달전 | ★ favorite | 댓글 1개

Ollama Turbo는 대규모 오픈 모델을 고성능 데이터센터 하드웨어에서 빠르게 실행할 수 있는 새로운 솔루션 (월 $20)
Ollama의 앱, CLI, API 및 JavaScript/Python 라이브러리를 그대로 사용하면서도 대형 모델을 빠르고 효율적으로 운용하는 방법을 제공
현재 프리뷰 상태로 OpenAI의 공개모델인 gpt-oss-20b 및 gpt-oss-120b 를 지원함
Turbo 모드 사용 시 질의 내역이 서버에 저장되거나 로그로 남지 않음
미국 내 데이터센터에서만 하드웨어 운영되며, 시간 및 일간 사용량 제한이 적용되어 있으며, 앞으로 사용량 기반 과금 시스템도 도입될 예정

▲

GN⁺ 4달전 [-]

Hacker News 의견

멋진 출시라고 생각함. 현재 OSS 모델을 기업에서 사용할 때 가장 어려운 점은 다양한 요소들 때문임: 속도, 비용, 신뢰성, 기능 동등성(예: 컨텍스트 캐싱), 성능(정확히 어떤 quant 수준인지 등), 호스트 지역/데이터 프라이버시 보장, LTS 등 다양함. 사실상 OSS 모델을 대기업 세 곳이 아닌 곳으로 쓰고자 하면, 이런 모든 축에서 제공자를 직접 평가해야 하고, 이 과정은 상당한 전문성을 필요로 하기도 함. 맞춤 평가 도구도 만들어야 하는 경우가 생김. 반면에 Anthropic, OpenAI, Google은 그냥 ‘바로 작동하는’ 경험을 주고, 그 대가를 지불하는 셈임. 가격이 약간 비싸긴 하지만, ‘모든 걸 대신 처리해준다’는 점에 대한 대가라고 생각함. OSS 제공자들이 표준화 작업을 하지 않는 한, 오픈소스 모델이 이론상 닫힌 모델과 성능이 같다고 해도 실제로 대규모 배포에서는 경쟁이 힘든 중간 단계에 머물 것 같음
- 맞는 말이지만, 대표적인 대규모 제공자들을 쓰는 건 프롬프트 트래픽 전체를 아무런 실질적인 법적 보호 없이 넘기는 일이기도 함. 이에 관한 상세한 이야기는 관련 기사 참조
- Gpt-oss 모델은 4.5 비트 quant 형식으로만 제공됨. 이게 순수한 오리지널 모델이고, fp16 모델은 없는 형태임
Ollama가 이런 일을 한다고 하여 안좋은 반응을 보이는 사람들도 있지만, 실제로는 로컬에서 모델을 개발·테스트하기 가장 쉬운 솔루션이라 생각함. 맞음, llama.cpp가 진짜 엔진이고 Ollama는 일종의 래퍼이긴 함. 실제 상용 서비스에서는 Ollama를 쓰고 싶지는 않음. 그렇지만 기술적 이해도가 낮은 사람들이 LLM 기능이 있는 시스템을 빨리 직접 개발·실행해보길 원한다면, GUI와 .dmg 파일로 바로 설치할 수 있다는 점이 좋은 부분임
- 고마운 피드백임. 최근 멀티모달 엔진 업데이트 후 Ollama는 더이상 llama.cpp 단순 래퍼가 아니게 되었음. 여전히 GGML 라이브러리를 쓰기는 하고, 하드웨어 파트너들과 함께 성능 최적화 중임. Ollama가 장난감처럼 보일 수 있지만, 단순함을 유지하기 위해 굉장히 많은 노력을 들이고 있음. 단순함이 종종 간과되지만, 우리가 바라는 세상을 만들고 싶음
- Ollama를 상용 환경에서는 쓰고 싶지 않다는 의견이 있었음. 실제로 우리는 vLLM과 Ollama의 시작 속도, 초당 토큰 처리 속도를 벤치마크했는데, Ollama가 가장 좋은 성적을 보였음. 곧 관련 결과를 공개할 수 있기를 바람
- 만약 제대로 된 데이터센터 GPU를 쓸 수 없고, 데스크탑 또는 클라이언트 사이드 배포만 가능한 경우에는 Ollama가 최적의 선택임. 이런 상황은 흔하지 않지만, 일부 조직에서는 4090 그래픽카드가 달린 데스크탑만 쓸 수밖에 없는 것이 현실임
Ollama는 ‘로컬’의 대명사라고 생각해서 앞으로 어떻게 될지 궁금함
- 대형 기업을 신뢰하지 않는 소수의 목소리 큰 유저들이 있지만, 이런 사람들은 작은 회사의 유사 서비스를 돈 주고 써도 괜찮게 여김. 과연 이런 유저들이 Ollama 같은 서비스에 실제로 비용을 지불할지 궁금함
- 클라우드 게임 서비스와 비슷하게 느껴짐. 대체로는 로컬 사용에 만족하지만, 가끔은 하드웨어 비용을 남에게 전가하는 것이 더 효율적임. 결국 선택의 문제이지, 전부 아니면 전무의 문제는 아니라고 생각함
"Privacy first"에 대한 구체적인 내용이 더 궁금함. ‘데이터를 저장하지 않는다’는 점만 강조한다면 부족한 느낌임. 예를 들어 Draw Things에서 ‘Cloud Compute’를 제공할 때도 모든 데이터 처리는 요청 기준 RAM에서만 하고 저장하지 않음. 하지만 개인적으로도 이 방식이 만족스럽지 않음. 곧 ‘privacy pass’ 지원을 추가할 예정이지만 그것도 한계가 있음. 하드웨어에서 증명 가능한 투명성 로그까지 있다면 좋겠는데, 어디서부터 시작해야 할지 모르겠음
- Ollama와 함께 일한다고 해서 프라이버시 측면에서 우위가 있다고 생각하지 않음. Ollama도 데이터를 판매하거나, 필요하면 법적으로 데이터를 제출해야 할 수 있음
- 프라이버시 정책이 보이지 않고, 데스크탑 앱이 오픈소스가 아니라서 신뢰를 주지 못함. [참고로, 실제 투명성 로그 등 프라이버시 보장이 진짜 되는 LLM 콜 솔루션을 만들고 있음]
- 만약 스위스나 GDPR을 잘 지키는 국가에서 모델을 실행할 수 있게 해 준다면, 대기 시간이 조금 더 걸리더라도 추가 비용을 더 낼 의향이 있음. 데이터 전송도 반드시 SSL 등 보안 프로토콜로 처리해 주기를 바람
똑같은 20달러를 주고 Ollama에서 ‘열등한’ 모델을 쓸 바에야 OpenAI에서 SOTA 모델을 쓰는 게 나은 것 아닌가 하는 궁금증이 있음
- Ollama Turbo의 주요 장점은, 제대로 된 하드웨어만 있으면 로컬에서 실행할 수 있는 다양한 모델을 클라우드에서 바로 테스트해볼 수 있다는 점임. 상당한 비용을 들여 고사양 하드웨어(mac studio, dgx 등)를 구매해 직접 구축하기 전에, 이런 오픈 모델을 빠르게 테스트해보고 적용 가능성을 가늠할 수 있음. 프라이버시가 중요한 금융, 의료, 법률 분야 전문 개발자들은 온프레미스와 로컬 환경을 원하기 마련임. 본 서비스로 비민감 데이터를 실험·개발하고, 실제 운영 전환 시에는 자체 하드웨어로 옮길 수 있는 장점을 누릴 수 있음
- 모델에 필터 없이 자유롭게 실행할 수 있다는 것이 장점임. OpenAI는 과도하게 필터링을 걸고, 어떤 규정을 위반했는지도 알려주지 않음. 프롬프트를 바꿔가며 저작권, 상표권 등 위반 여부를 직접 확인해야 하고, 최근엔 단순히 질문만 해도 제대로 답변하지 않음. LLM에 ‘보호장치’ 없는 버전을 원함
- 대형 모델들의 가격이 앞으로도 20달러 수준에 머물지는 확신할 수 없음. 어쨌든 시장이 경쟁적으로 유지되길 항상 바람
- 데이터 프라이버시가 가장 중요한 이유인 듯하고, 요금제 상으로도 더 많은 사용량을 제공하는지도 기대할 수 있을 것 같음. 개인적으로는 데이터 프라이버시가 핵심임
예견했던 일이었음. 로컬 추론 커뮤니티가 Ollama를 중심으로 모이고 있지만, Ollama의 장기적인 전략이나 우선순위가 거기 있지 않은 게 명확해 보임. 빠르게 대안으로 이동해야 한다고 생각함
- Ollama의 기반 라이브러리인 llama.cpp 자체가 서버 기능을 갖추고 있고 open-webui와 완전히 호환됨. 실제로 몇 달 전에 ollama 대신 llama-server로 옮겼고, 똑같은 UI를 쓰니 전혀 아쉬움 없이 사용 중임
- Ollama는 열려 있고, 추가 GPU를 원하는 사용자에게만 가격을 부과하는 구조임. 실제로 GPU 비용이 들어가니 정당하게 요금이 부과되고, 그 수익으로 오픈소스 프로젝트의 핵심을 성장시키는 것도 필요하다고 생각함. 어느 정도는 합리적이어야 하고, 양심적으로 한다면 멋진 결과물을 만들 수 있다고 믿음
- 해당 목표로 github.com/containers/ramalama 프로젝트도 존재함
- Huggingface도 클라우드 상품을 제공하지만, 그렇다고 해서 모델 가중치를 다운로드 받아 로컬에서 돌릴 수 없다는 의미는 아님
- 결국 무료 서비스를 지속 불가능한 방식으로 원한다는 것은 한계가 있음. 오픈소스 대안 만들고 싶은 분이 직접 시간 들여 만들 수도 있음. 그게 아니라면 지금 이 현실을 받아들이는 것도 필요함
Ollama가 왜 이런 결정을 내렸는지 혼란스러움. 수익을 내려는 의도 아니면 누군가의 압력을 받는 것 같음. 로컬을 위한 솔루션이 정말 잘 작동하고, 더 다양한 아이디어를 펼칠 수 있었는데 또 다른 클라우드 서비스를 만든 것이 아쉬움. Ollama를 계속 좋아하고, 변함없이 멋졌으면 좋겠음
- 오픈소스 소프트웨어는 쓸 때는 공짜지만, 만드는 건 결코 공짜가 아님. 무료이면서 최신인 상태를 유지하려면 누군가는 GitHub 이슈를 처리해야 하고, 그런 일에는 보상이 필요할 수 있음
이 소식에서 관심이 가는 부분이 많음. 대표적인 로컬 OSS 모델 엔진으로서, 이번에 처음부터 OSS만 제공한다는 건 오늘 발표 타이밍과 OSS 붐에 올라탄다는 전략처럼 느껴짐. 구독형 요금제도 흥미로운데, 다른 플레이어들도 채택 중이나 API 기반 서비스에서는 드문 방식임. 장기적으로 LLM의 가격 전쟁이 벌어질 거라 예상하는데, API 서비스도 월 구독제가 생기는 건 그런 현상의 징후일 수도 있음. Ollama가 로컬 엔진과 이번 클라우드 서비스 모두를 유지할 만한 자원이 있는지 궁금함
곧 ‘사용량 기반 요금제’가 나올 거라고 했는데, 이런 서비스에 딱 맞는 방식이라고 생각함. 나도 Anthropic에 20달러를 내고 있는데 개인적으로 이 서비스에 같은 금액을 낼 만큼의 사용량은 안될 듯함. 그래도 다양한 모델을 바로 불러쓸 수 있고, 비교해볼 수 있다는 점은 정말 유용하다고 봄. 팀에 꼭 좋은 결과가 있길 바람
- 오픈소스 LLM에 정액제 서비스라는 건 상당히 독특함. 내가 쓸 것 같진 않지만, 만약 사용량 기반 요금제가 적용된다면 deepinfra.com, novita.ai, openrouter.ai 같은 기존 강자들과 바로 경쟁해야 함. Ollama가 인지도는 더 높지만, 기존 서비스들도 이미 가격 경쟁력이 높음
- 사용량 기반 요금제가 곧 출시된다는 점에 동의함. 다만 이미 다양한 OpenAI 기반 모델을 제공하는 프로바이더들이 많으니, Ollama의 차별점이 무엇인지 궁금함. 본인 API키를 쓰는 좋은 인터페이스도 이미 많이 존재함
- API 접근에 월 20달러 구독제는 확실히 신선함
API 사용에 구독제 요금은 정말 흥미로운 시도임. 실제 가치는 사용 한도가 공개되지 않은 점에서 좌우될 것 같음
- 실제 사용 패턴을 계속 모니터링해서 보다 적절한 요금 체계를 만들고자 함

답변달기