Вышел мультимодальный Qwen3.5-Omni
Вышел мультимодальный Qwen3.5-Omni
Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.
Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.
Доступ пока только через API.
https://qwen.ai/blog?id=qwen3.5-omni
Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.
Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.
Доступ пока только через API.
https://qwen.ai/blog?id=qwen3.5-omni
GPT/ChatGPT/AI Central Александра Горного
509 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
Почему картина Моне воспринимается хуже AI-генерации?
GPT/ChatGPT/AI Central Александра Горного·
Mythos помог взломать macOS
GPT/ChatGPT/AI Central Александра Горного·
Как трекер мозга Neiry помогает улучшить концентрацию и здоровье?
GPT/ChatGPT/AI Central Александра Горного·
Почему в LinkedIn начали отправлять голосовые сообщения?
GPT/ChatGPT/AI Central Александра Горного·
Зачем нужен курс по Claude Code для предпринимателей?
GPT/ChatGPT/AI Central Александра Горного·
Замена человека
Стартап дня. Александр Горный.·