LLM 1B 모델이지만 아무래도 연산이 많은 것 같습니다. 어제는 정신도 없고 갑자기 container가 좀비 상태가 되어서 정신이 없었는데 docker 에서 cpu 사용률 제한을 계속 변경하면서 테스트를 했는데 그러다보니깐 동시에 3~5개의 요청도 겨우겨우 하는 수준인 것 같습니다.
어떻게 보면 간략한 프로젝트하면서 수 년내에 로컬 AI가 올 것이고, 만약에 GPU 리소스 부족한 상황에서 LLM 서비스를 하면 얼마나 부하가 걸리는지 알려고도 한 부분도 있었습니다.
서버 수행하는 CPU는 AMD 7700 입니다. 결국 로컬 AI에서 하려면 여러 가지를 고려해야하는 걸 알게되었습니다. 생각보다 POST 보내고 응답이 오기전까지 타입아웃이 걸리는 문제가 있고 결국 이걸 안정적인 서비스를 하려면 GPU나 인퍼런스용 기기(예를 들어 google TPU 등)가 많이 있어야 응답속도가 유리하고, 큐 형태로 제공할 수 있게 해야겠다라는 생각이 들었습니다.
사실 국내엔 LLM을 제대로 운영하는 회사는 드물고(이미 알려진 네이버, 카카오, 업스테이지 등), 챗봇도 주어진 기능을 하는 경우가 많고 LLM 모델 API 연결하는 경우가 있다보니 얼마나 부하가 되어야할 것이고, 만약 웹에서 이러한 서비스를 서버에 부담을 줄여야 한다면 어떻게 해야하는 생각이 드는 계기가 됐습니다.
참고로 이 댓글을 보는 일부는 모델을 그냥 전달해서 뿌리면 되는거 아니야 라는생각을 할 수 있겠지만 gemma3 1b의 용량은 1GB를 초과하고 서버 호스팅을 쓰고 있지만 이 트래픽을 감당할 순 없다고 생각했습니다.
앱 형태로 어떻게든 선탑재하면 되겠지만 웹에선 어떻게 서비스를 서버의 부담을 줄이면서 할 수 있을까 에 대한 고민을 잘 한 기업들이 낮은 유지비용을 갖고 갈 수 있지 않을까 싶네요.

귀중한 경험 공유 정말 감사드립니다