Вышел мультимодальный Qwen3.5-Omni
Вышел мультимодальный Qwen3.5-Omni
Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.
Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.
Доступ пока только через API.
https://qwen.ai/blog?id=qwen3.5-omni
Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.
Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.
Доступ пока только через API.
https://qwen.ai/blog?id=qwen3.5-omni
Read next
Пару недель назад вышел проект регулирования AI в России. Он активно цитируется самыми разными людьми, причем у меня ощу...
GPT/ChatGPT/AI Central Александра Горного•
Что такое Claude Code и почему его исходный код стал доступен?
GPT/ChatGPT/AI Central Александра Горного•
Премия Generation AI Awards 2026 принимает заявки до 20 апреля
GPT/ChatGPT/AI Central Александра Горного•