3P by xguru 30일전 | favorite | 댓글과 토론
  • Prompt Caching은 API 사용을 최적화하여 프롬프트의 특정 접두사로부터 작업을 재개할 수 있게 해줌
    • 큰 프롬프트를 여러 API 호출에서 재처리하지 않고 재사용하여 반복적인 작업등에서 처리 시간과 비용을 크게 줄임
  • 동작 원리
    • 프롬프트 Prefix 캐싱: 시스템이 최근 쿼리에서 프롬프트 Prefix를 캐시했는지 확인함. 발견되면 캐시된 버전을 사용하여 처리 시간과 비용을 줄임. 그렇지 않은 경우 전체 프롬프트를 처리하고 Prefix를 캐시함.
    • 사용 사례: 많은 예시가 포함된 프롬프트, 큰 양의 컨텍스트나 배경 정보, 일관된 지침이 포함된 반복 작업, 긴 다중 턴 대화에서 유용함
    • 캐시 수명: 캐시는 5분 동안 유효하며, 캐시된 내용이 사용될 때마다 새로고침됨
  • 캐시되는 프롬프트 내용
    • 도구, 시스템, 메시지(해당 순서대로)를 포함한 전체 프롬프트를 참조함. cache_control로 지정된 블록까지 포함
  • 가격
    • Claude 3.5 Sonnet: 기본 입력 토큰 $3 / MTok, 캐시 작성 $3.75 / MTok, 캐시 조회 $0.30 / MTok, 출력 토큰 $15 / MTok
    • Claude 3 Haiku: 기본 입력 토큰 $0.25 / MTok, 캐시 작성 $0.30 / MTok, 캐시 조회 $0.03 / MTok, 출력 토큰 $1.25 / MTok
    • Claude 3 Opus(출시 예정): 기본 입력 토큰 $15 / MTok, 캐시 작성 $18.75 / MTok, 캐시 조회 $1.50 / MTok, 출력 토큰 $75 / MTok
  • 요점
    • 캐시 작성 토큰은 기본 입력 토큰보다 25% 더 비쌈
    • 캐시 조회 토큰은 기본 입력 토큰보다 90% 저렴함
  • 캐시 제한 사항
    • 캐시 가능한 최소 프롬프트 길이:
      • Claude 3.5 Sonnet 및 Claude 3 Opus: 1024 토큰
      • Claude 3 Haiku: 2048 토큰
    • 5분의 캐시 TTL이 있으며, 현재 "ephemeral"은 이 5분 수명에 해당하는 유일한 지원 캐시 유형임
  • 다양한 유스 케이스
    • 대화형 에이전트: 긴 지침이나 업로드된 문서가 포함된 대화에서 비용과 지연 시간을 줄일 수 있음
    • 코딩 어시스턴트: 관련 섹션이나 코드베이스의 요약 버전을 프롬프트에 유지하여 자동 완성 및 코드베이스 Q&A 성능을 향상시킴
    • 대형 문서 처리: 이미지가 포함된 긴 형식의 자료를 프롬프트에 포함시켜도 응답 지연 없이 처리할 수 있음
    • 상세 지침 세트: 20개 이상의 다양한 고품질 답변 예시를 포함하여 Claude의 응답을 더욱 세밀하게 조정함
    • 에이전트 도구 사용: 여러 도구 호출과 반복적인 코드 변경이 포함된 시나리오에서 성능을 향상시킬 수 있음
    • 책, 논문, 문서, 팟캐스트 대본, 기타 장문 콘텐츠 대화: 전체 문서(들)를 프롬프트에 포함시켜 사용자에게 질문할 수 있게 함