OpenAI выпустила три голосовые модели для AI-агентов

OpenAI выпустила три голосовые модели для AI-агентов

GPT-Realtime-2 — модель, способная рассуждать на уровне GPT-5. Обрабатывает сложные запросы и ведёт разговор естественно.

GPT-Realtime-Translate — модель перевода в реальном времени. Поддерживает 70 языков на входе и 13 на выходе.

GPT‑Realtime‑Whisper — потоковое преобразование речи в текст.

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет

💬Discussion (1)

Bogdan Shenzhen@bvpotapenko
очень интересно как они потоково реализовали whisperer. Я на нем делал голосового ассистента, и короткие куски звуков он плохо в текст переводит, нужен контекст, хотя бы пара-тройка слов..
Join discussion on TelegramComments are synced from Telegram

Связанные темы

Читать далее