Vision (изображения на входе)
Модели Claude 3+, GPT-4o+, Gemini 1.5+, Pixtral, Llama-Vision принимают изображения в формате OpenAI multimodal.
URL изображения
python
resp = client.chat.completions.create(
model="anthropic/claude-sonnet-4.6",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Что изображено на картинке?"},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/photo.jpg",
"detail": "high",
},
},
],
}
],
max_tokens=400,
)
print(resp.choices[0].message.content)Base64
python
import base64
from pathlib import Path
img = base64.b64encode(Path("photo.jpg").read_bytes()).decode()
content = [
{"type": "text", "text": "Опиши изображение"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{img}"},
},
]Лимиты
- Максимальный размер картинки: 20 MB.
- Поддерживаемые форматы:
jpeg,png,webp,gif. - В одном запросе можно прислать несколько изображений; стоимость считается отдельно за каждое (см. документацию провайдера).
Стоимость
Стоимость vision-токенов учитывается отдельно: например, у Anthropic картинка ≈ 1100 токенов на изображение «standard», у OpenAI — фиксированная плата плюс попиксельный тариф. Шлюз получает фактический usage от upstream и списывает по тем же правилам наценки и курса, что и обычные токены.