Вышел мультимодальный Qwen3.5-Omni
Вышел мультимодальный Qwen3.5-Omni
Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.
Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.
Доступ пока только через API.
https://qwen.ai/blog?id=qwen3.5-omni
Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.
Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.
Доступ пока только через API.
https://qwen.ai/blog?id=qwen3.5-omni
GPT/ChatGPT/AI Central Александра Горного
710 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
Ford вернул опытных инженеров после неудачи с AI
GPT/ChatGPT/AI Central Александра Горного·
Samsung, SK Hynix и Micron обвинили в сговоре по ценам на память
GPT/ChatGPT/AI Central Александра Горного·
Какие существуют крупнейшие архивы данных в интернете?
GPT/ChatGPT/AI Central Александра Горного·
Клиенты Anthropic и OpenAI нашли миллионы долларов лишних списаний** **за токены
GPT/ChatGPT/AI Central Александра Горного·
Экс-глава AI в Databricks придумал, как снизить энергозатраты в 1000 раз
GPT/ChatGPT/AI Central Александра Горного·
Как скачать видео с YouTube с помощью Python?
GPT/ChatGPT/AI Central Александра Горного·