Skip to content

Кеширование

Шлюз кеширует одинаковые non-streaming запросы в Redis на 10 минут, что позволяет мгновенно отвечать на повторы и не списывать дополнительные деньги.

Как считается ключ кеша

Ключом служит SHA-256 от:

  • model,
  • нормализованных messages / input,
  • релевантных параметров (temperature, top_p, max_tokens, tools, response_format, seed).

Поэтому temperature=0 + одинаковый prompt = попадание в кеш.

Когда кеш не работает

  • При stream: true (поток нельзя проиграть из кеша).
  • Если в payload есть metadata.no_cache: true.
  • Если включён режим cache_control от Anthropic — там используется upstream-кеш, шлюз его не дублирует.

Принудительный обход

python
resp = client.chat.completions.create(
    model="anthropic/claude-sonnet-4.6",
    messages=[...],
    extra_body={"metadata": {"no_cache": True}},
)

Заголовок ответа

x-llmgw-cache: hit или miss — позволяет видеть, отвечен ли запрос из кеша.

© llmgw