Вышел мультимодальный Qwen3.5-Omni
Вышел мультимодальный Qwen3.5-Omni
Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.
Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.
Доступ пока только через API.
https://qwen.ai/blog?id=qwen3.5-omni
Модель принимает на вход текст, картинки, аудио и видео, а на выходе генерирует текст и речь.
Распознавание речи охватывает 113 языков, а синтез — 36. Alibaba заявляет, что в большинстве бенчмарков на распознавание аудио Qwen3.5-Omni обходит всех конкурентов, включая Gemini-3.1 Pro.
Доступ пока только через API.
https://qwen.ai/blog?id=qwen3.5-omni
GPT/ChatGPT/AI Central Александра Горного
385 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
Инвесторы обсуждают увольнение Альтмана
GPT/ChatGPT/AI Central Александра Горного·
Почему браузеры хранят данные с сайтов, где не логинишься?
GPT/ChatGPT/AI Central Александра Горного·
Microsoft хочет сделать свои передовые модели к 2027 году
GPT/ChatGPT/AI Central Александра Горного·
Вышел Claude Design
GPT/ChatGPT/AI Central Александра Горного·
OpenAI выпустила GPT-Rosalind — модель для помощи в разработке лекарств
GPT/ChatGPT/AI Central Александра Горного·
Как внедрить AI-агентов в малый и средний бизнес?
GPT/ChatGPT/AI Central Александра Горного·