# Vertex AI Context Caching + Priority PayGo 레이턴시 벤치마크 (400회, Gemini 3 Flash)

> Clean Markdown view of GeekNews topic #26627. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=26627](https://news.hada.io/topic?id=26627)
- GeekNews Markdown: [https://news.hada.io/topic/26627.md](https://news.hada.io/topic/26627.md)
- Type: news
- Author: [calmlake79](https://news.hada.io/@calmlake79)
- Published: 2026-02-12T17:23:25+09:00
- Updated: 2026-02-12T17:23:25+09:00
- Original source: [cloudturing.com](https://cloudturing.com/blog/vertex-ai-context-caching-priority-paygo-benchmark)
- Points: 1
- Comments: 0

## Topic Body

AI 챗봇 서비스에서 사용하는 ~7,500토큰 시스템 프롬프트(입력)와 ~100토큰 응답(출력) 기준으로, Vertex AI의 Context Caching과 이번에 새로 나온 신규 Priority PayGo의 레이턴시 개선 효과를 벤치마크  
  
- 4가지 시나리오 (Standard/Priority × 캐싱/비캐싱), 각 100회, 총 400회 요청  
- 모델: gemini-3-flash-preview  
- 요청 방식: 1초 간격 staggered start  
  
주요 결과:  
  
- Context Caching: 캐싱 유무와 관계없이 평균 응답시간 거의 동일 (~3초)  
- Priority PayGo: 비혼잡 시간대에서는 오히려 3~7% 느림  
- 비캐싱 시나리오에서도 Vertex AI가 내부적으로 Implicit Caching을 수행하는 것을 확인  
- Thinking Level에 따른 레이턴시 차이가 압도적: DEFAULT 7.4초 → LOW 3초 → MINIMAL 2.6초  
  
결론: 캐싱이나 우선순위 설정보다, 요청 구조 자체를 바꾸는 것이 레이턴시 최적화에 효과적

## Comments



_No public comments on this page._
