AI 챗봇 서비스에서 사용하는 ~7,500토큰 시스템 프롬프트(입력)와 ~100토큰 응답(출력) 기준으로, Vertex AI의 Context Caching과 이번에 새로 나온 신규 Priority PayGo의 레이턴시 개선 효과를 벤치마크

  • 4가지 시나리오 (Standard/Priority × 캐싱/비캐싱), 각 100회, 총 400회 요청
  • 모델: gemini-3-flash-preview
  • 요청 방식: 1초 간격 staggered start

주요 결과:

  • Context Caching: 캐싱 유무와 관계없이 평균 응답시간 거의 동일 (~3초)
  • Priority PayGo: 비혼잡 시간대에서는 오히려 3~7% 느림
  • 비캐싱 시나리오에서도 Vertex AI가 내부적으로 Implicit Caching을 수행하는 것을 확인
  • Thinking Level에 따른 레이턴시 차이가 압도적: DEFAULT 7.4초 → LOW 3초 → MINIMAL 2.6초

결론: 캐싱이나 우선순위 설정보다, 요청 구조 자체를 바꾸는 것이 레이턴시 최적화에 효과적