Vertex AI Context Caching + Priority PayGo 레이턴시 벤치마크 (400회, Gemini 3 Flash)

(cloudturing.com)

AI 챗봇 서비스에서 사용하는 ~7,500토큰 시스템 프롬프트(입력)와 ~100토큰 응답(출력) 기준으로, Vertex AI의 Context Caching과 이번에 새로 나온 신규 Priority PayGo의 레이턴시 개선 효과를 벤치마크

주요 결과:

결론: 캐싱이나 우선순위 설정보다, 요청 구조 자체를 바꾸는 것이 레이턴시 최적화에 효과적