300명 사용자를 위한 자체 호스팅 LLM 서버 구축이 가능할까요?

(reddit.com)

21P by neo 3달전 | ★ favorite | 댓글 6개

Reddit /r/ollama 서브레딧에 올라온 질문과 답변 정리
300명 규모 법률사무소의 시스템 관리자로서, 모든 직원에게 ChatGPT와 유사한 AI 기반 문서 작성 및 교정 도구를 제공하고자 함
PII 등 민감 정보 보호를 위해 외부 서비스 대신 사내 서버에 LLM 직접 호스팅(로그인, 2FA, VPN 등 접근 제어 적용)을 생각하고 있음
주요 질문
- 자체 구축 LLM 서버가 300명 이상 사용자를 실제로 지원할 수 있을지?
- PC+GPU 몇 대로 충분할 것이라 예상했는데, 실제로는 과소평가한 것인지?
- 사용자 생성/관리가 큰 부담이 될 수 있는지?
- 내가 놓친 중요 고려사항이 있는지?
LLM 분야 전문가가 아니라, 확장성·운영 부담·실현 가능성에 대한 현실적 조언을 구함

주요 답변 요약

1. 하드웨어·성능 한계 및 비용

상용 모델(예: ChatGPT) 수준을 기대한다면, 수억 원대의 고가 GPU 클러스터가 필요함 (예상치 $200,000~$1,000,000+)
오픈소스 모델(30B~70B 파라미터급) 로 다운스케일하면, 성능 저하(지연, 결과 품질) 감수 필요. 10~40명 동시 처리도 한계
10명 이하 동시 사용을 가정하고, 점진적 확장(서버 증설) 방식 추천
로컬 환경보다 클라우드 GPU 임대가 더 경제적/유연할 수 있음

2. PoC(파일럿) 및 점진적 접근 권장

1대 서버+1 GPU로 PoC(파일럿) 구축, 실제 업무 시나리오/부하 측정 후 확대 권장
대량 동시 요청 시 대기열 시스템 필수, 실제 사용자 동시성은 300명이 아닌 10~30명 수준일 수 있음
단기적으로는 작은 모델(3B~13B 파라미터) + 워크스테이션 조합으로 실험 가능

3. 클라우드/하이브리드/대체 옵션

클라우드 기반 LLM(API, VPS, Azure, AWS Bedrock 등) 를 자체 인프라와 연계, 보안 요건에 맞는 하이브리드 구조 제안
자체 호스팅시 보안·성능·비용 부담 큼, 실질적으론 ChatGPT Enterprise/Teams, Microsoft Copilot Studio 등 상용 솔루션이 효율적
법률 데이터/PII 처리 보안 요건 검토 필수

4. 기타 운영·관리·기술적 이슈

유저 관리/인증: AD 연동, OAuth, 자체 인증 등으로 간소화 가능
모델 선정/튜닝: 실제 용도(문서 교정 등)에 맞는 중소형 오픈소스 모델(LLama, Deepseek, Gemma, Qwen 등) 테스트 권장
RAG, 캐싱, 부하분산 등 추가 솔루션 도입 가능성 검토
실사용 시나리오 정의와 PoC를 통한 적정 예산/ROI 검증 필요

대표 답변 정리

ithkuil

상용 모델과 비교 시 오픈소스 모델은 성능 차이가 크고, 300명 규모라면 수억 원 하드웨어가 필요할 수 있음
2년 내 하드웨어와 오픈모델 발전을 기대해볼 만

SlimeQ

단일 인스턴스+대기열로 소규모로 시작, 사용량 증가시 점진적 확장 권장
300명 모두 동시 사용 불가, 실제 사용량 측정 후 확장 판단

Ok-Internal9317

실제 동시 사용자는 10명 미만일 수 있으며, 4~5개 GPU면 충분할 수도 있음
장기적으론 API 비용이 자체 하드웨어보다 경제적일 수 있음

dyoh777

Ollama+WebUI로 간단히 데모 가능, 하지만 모델 품질이 중요

careful-monkey

Mac Studio + 대용량 RAM으로 소규모 모델 돌리기 가능, 20token/sec 정도의 속도

tshawkins

Microsoft Copilot Studio 등 SaaS 기반 솔루션 추천, Power Platform 내 통합

roman_fyseek, Cergorach, Space__Whiskey

모델 VRAM 한계: 1세션=1GPU, 300명 동시처리는 300 GPU 필요
현실적으론 동시 접속 제한, 캐싱, 하이브리드 구조 필요

Siderox, SandboChang, unrulywind

PoC로 작은 서버부터 실험(ex. 1~2명/모델, 실업무 적용성 점검) → 점진적 확장 권장
실제 시나리오 정의/벤치마킹 후 예산과 ROI 검증 필요

Little_Marzipan_2087, morosis1982, Daemonero

클라우드 GPU 임대가 저렴하고 확장성 좋음, 자주 활용되는 솔루션임
운영 및 유지보수 부담 감안, 하드웨어 투자보다 클라우드 활용을 추천

CtiPath, alew3, faldore, Wheynelau

vLLM, OpenWebUI, TGI, sglang 등 고성능 오픈소스 LLM 서버 프레임워크 추천
큐+로드밸런서 아키텍처 구성 권장

기타

보안/법률 이슈: 클라우드 활용시에도 데이터 위치, 암호화, 규정 준수 등 철저 검토 필요
Mac Studio, RTX 6000 Pro, 4090 등 여러 하드웨어 옵션 언급
캐싱, RAG, context 제한, 오프로드 등으로 부하 최소화 가능성 있음

결론 요약

자체 호스팅 LLM 서버는 소규모 파일럿(PoC)부터 시작해 실사용자 규모/요구사항/성능/비용을 단계별로 검증하는 것이 현실적임
동시 300명 처리는 상당한 하드웨어/운영비용 부담이 수반되며, 실제 용도와 예산에 따라 클라우드, 하이브리드, 상용 솔루션이 더 적합할 수 있음
최종적으로는 보안, 비용, 사용자 경험, 유지보수 등 다면적 요소를 종합적으로 고려해야 함

▲

tsboard 3달전 [-]

저도 필요에 의해서 그 귀하다는 H100 GPU 4장을 써가며 RAG 솔루션을 만들고 있습니다만, 하드웨어 직접 투자 뿐만 아니라 전기세나 기타 냉각 솔루션 비용 등등을 감안하면 그냥 API를 호출하는 게 훨씬 낫겠다는 생각이 계속 들었습니다.

저도 처음에는 Ollama로 테스트를 시작했고, 동접자 3명도 제대로 커버 안되는 걸 확인하고 바로 vLLM으로 넘어가서 여차저차 RAG 솔루션 구성을 했는데, (동접 10명 가정) 여기에만 벌써 H100 GPU 2장을 거의 풀로 써야 합니다. 임베딩 작업이나 검색 작업 들도 vLLM으로 열어서 쓰는데 H100 4장은 정말 빠듯하더라구요. VRAM이 한장에 90GB 정도인데도 이렇습니다.

물론 저야 AI 잘 모르고 부서에 필요한 것 + 사내 보안 규정을 이리저리 맞추다보니 그냥 막무가내로 해보고 있는건데... 이게 맞나 싶습니다. ChatGPT 엔터프라이즈였나? 정말 혜자 가격으로 생각합니다.

기승전~케바케!

300 명의 처리 업무 내 사용되는 사고 능력 기준을 너무 광범위하게 잡으신 것 같아요. 정말 일반적인 상식부터 논문이나 고급주제까지 하려면 이렇게 하는게 맞는데, 실제 처리가 필요한, 업무들의 수준을 생각해보면 30b정도에 rag가 붙은 상태면 대부분 처리가 가능할텐데, 너무 기반 오픈소스의 모든 가중치를 올려서 높은 사고력에 기능들을 의지하시다보니 규모가 너무 거대해진 것 아닐까요?? 그리고 바로 처리가 가능한것돠 문서의 검색과 탐색은 개별기능으로 분리 하는것이 맞는 것 같습니다.
동시 300명 처리하는 kv캐쉬 대상 토큰의 범위도 각 20000토큰 양자화 값 정도면 여유롭게 사용할텐데 이부분도 과하게 잡혀있을수도... ??
정말 300분이 눈문제작을하는 박사분들이 아니라면 사고수준은 고등학생(14~30b)정도로 두고 다양한 사내 문서를 rag 로직에 맞춰서 적절한 cot로 탐색하는 과정으로 세팅해두면 무난한 금액에서 시범운영 수준의 프로젝트가 되지 않을까 싶습니다.

답변달기

▲

chinnotching 3달전 [-]

끈내주는 가격의 끈내주는 머신 하나면 될듯? 끈내주는 로펌은 사다쓰겠네요. 근데 공장 기계24시간 돌리듯이 ㅋㅋㅋ

답변달기

▲

neinomu 3달전 [-]

포르쉐 가격만 생각하고 유지비 기름값 보험 등은 1도 생각안하는 1인

답변달기

▲

beepp 3달전 [-]

스트리밍 기능이 제공되어야 하는 챗봇 같은 서비스는 동시 처리 시 Prefill 작업에 decode 까지 영향을 받아서 VRAM은 넉넉해도 사용자 입장에서는 성능이 매우 저하되는 것 처럼 보이더라구요.

청크 프리필 관련 옵션이랑 vLLM에서 실험적으로 제공하는 Disaggregated Prefilling 기능도 적용해봤지만 여전히 새로운 요청이 들어오면 기존 생성 중인 답변이 뚝뚝 끊기는 현상이 있어 초보 개발자 입장으로서는 GPU, 노드를 늘리는 방법 외에 가장 효율적인 방법이 있는지 궁금하네요.

답변달기