pytorch+cuda 의존성에 버전만 다르게 걸리는 패키지가 있어서.. 아주 가관입니다.
별 기능도 없는 녀석인데 작은 데몬별로 의존성이 2기가 가까이 깔립니다..

단순 추론용으로 쓰는 cpu 런타임이면 형편은 좀 나은데, 요즘 요구되는 LLM 서비스 때문에 트래픽도 트래픽대로, 용량도 용량대로 늘어나니 비용 계산할때 욕나옵니다 ㅋㅋㅋ