Skip to content

Vision (изображения на входе)

Модели Claude 3+, GPT-4o+, Gemini 1.5+, Pixtral, Llama-Vision принимают изображения в формате OpenAI multimodal.

URL изображения

python
resp = client.chat.completions.create(
    model="anthropic/claude-sonnet-4.6",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Что изображено на картинке?"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/photo.jpg",
                        "detail": "high",
                    },
                },
            ],
        }
    ],
    max_tokens=400,
)
print(resp.choices[0].message.content)

Base64

python
import base64
from pathlib import Path

img = base64.b64encode(Path("photo.jpg").read_bytes()).decode()
content = [
    {"type": "text", "text": "Опиши изображение"},
    {
        "type": "image_url",
        "image_url": {"url": f"data:image/jpeg;base64,{img}"},
    },
]

Лимиты

  • Максимальный размер картинки: 20 MB.
  • Поддерживаемые форматы: jpeg, png, webp, gif.
  • В одном запросе можно прислать несколько изображений; стоимость считается отдельно за каждое (см. документацию провайдера).

Стоимость

Стоимость vision-токенов учитывается отдельно: например, у Anthropic картинка ≈ 1100 токенов на изображение «standard», у OpenAI — фиксированная плата плюс попиксельный тариф. Шлюз получает фактический usage от upstream и списывает по тем же правилам наценки и курса, что и обычные токены.

© llmgw