Кеширование
Шлюз кеширует одинаковые non-streaming запросы в Redis на 10 минут, что позволяет мгновенно отвечать на повторы и не списывать дополнительные деньги.
Как считается ключ кеша
Ключом служит SHA-256 от:
model,- нормализованных
messages/input, - релевантных параметров (
temperature,top_p,max_tokens,tools,response_format,seed).
Поэтому temperature=0 + одинаковый prompt = попадание в кеш.
Когда кеш не работает
- При
stream: true(поток нельзя проиграть из кеша). - Если в payload есть
metadata.no_cache: true. - Если включён режим
cache_controlот Anthropic — там используется upstream-кеш, шлюз его не дублирует.
Принудительный обход
python
resp = client.chat.completions.create(
model="anthropic/claude-sonnet-4.6",
messages=[...],
extra_body={"metadata": {"no_cache": True}},
)Заголовок ответа
x-llmgw-cache: hit или miss — позволяет видеть, отвечен ли запрос из кеша.