Вышел мультимодальный Qwen3.5-Omni

Вышел мультимодальный Qwen3.5-Omni

Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.

Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.

Доступ пока только через API.

https://qwen.ai/blog?id=qwen3.5-
omni

Read next