Alibaba открыла Qwen3-TTS: клонирование голоса за 3 секунды и синтез речи в реальном времени

Вчера, 17:35 Блог сайта «Хайтек+»

В открытый релиз вошли три ветки: Base (базовая модель для качественного TTS и быстрого клонирования), CustomVoice (управляемая озвучка со «стилевыми» профилями) и VoiceDesign — самый показательный компонент линейки, позволяющий задавать параметры будущего голоса естественным языком: от тембра и манеры речи до эмоционального рисунка и просодики. В практическом смысле это попытка увести настройку синтеза из мира акустических «ручек» и тонкой инженерной подгонки — в привычные промпты, понятные продюсерам, редакторам и разработчикам.

Технически Qwen3-TTS опирается на подходы нового поколения, которые в последние два года активно вытесняют «классические» TTS-конвейеры. В техническом отчёте команда описывает «двухтрековую» архитектуру, рассчитанную на разные сценарии — от максимального качества до реального времени, — и сразу два семейства токенизаторов речи.

В публичный набор, судя по репозиторию и моделям на Hugging Face, вынесен прежде всего 12 Hz-токенизатор (в обозначениях релиза — Tokenizer-12Hz): он сжимает речь до крайне низкого битрейта и позволяет системе отдавать «первый пакет» звука практически мгновенно, что и даёт заявленную задержку в десятки миллисекунд.

Наиболее чувствительная для рынка функция — клонирование голоса за считанные секунды. В отчёте говорится о «3-секундном voice cloning», а независимые разработчики уже демонстрируют работу механизма через публичное демо на Hugging Face: пользователь записывает короткий референс и получает озвучку другого текста «в своём» тембре. Это та самая грань, за которой технология перестаёт быть экзотикой студий и превращается в повседневный инструмент — достаточно видеокарты с несколькими гигабайтами видеопамяти или даже браузера, если вычисления берёт на себя внешний сервис.

Отдельный практический маркер зрелости — лицензирование. Alibaba публикует модели и токенизаторы под Apache-2.0, то есть одной из наиболее «дружественных» для коммерческого применения лицензий: её выбирают, когда хотят стимулировать внедрение в продукты и экосистемы партнёров. На стороне распространения видна ставка на привычную инфраструктуру open-source: GitHub-репозиторий и коллекция моделей на Hugging Face, где доступны варианты 0,6B и 1,7B, а также отдельные артефакты токенизатора.

Контекст для релиза — более широкая стратегия Alibaba, которая последние два года наращивает присутствие в ИИ как в корпоративных сервисах, так и в потребительских продуктах. Reuters фиксировал, что компания последовательно расширяет линейку Qwen и продвигает её как инфраструктурную платформу, а в январе 2026-го сообщал об обновлении приложения Qwen с упором на «прикладные» сценарии — от планирования до транзакций в экосистеме Alibaba.

Вывод TTS-семейства в открытый доступ здесь выглядит логичным: голос становится интерфейсом, а «собственная» речь — таким же активом, как текст и изображение.

Показательно, что параллельно компания сохраняет и коммерческий контур: в документации Alibaba Cloud Model Studio рекомендован сервис Qwen3-TTS-Flash с заявленными 49 голосами, поддержкой нескольких языков (включая русский) и тарификацией $0,10 за 10 000 символов при лимите ввода 600 символов за запрос в международном режиме. Это типичная для крупных вендоров двойная стратегия: открытые «веса» подталкивают сообщество к интеграциям и форкам, а облачный продукт остаётся удобным вариантом «под ключ» — с готовыми голосами, SLA и биллингом.

Но у демократизации есть обратная сторона. Массовое клонирование голоса усиливает и без того острые риски «аудио-дипфейков»: от мошеннических звонков «родственникам» до подделки публичных выступлений и компрометации брендов. Разница лишь в том, что теперь порог входа ещё ниже: если раньше требовались закрытые сервисы или сложная сборка исследовательских моделей, то теперь достаточно скачать несколько гигабайт и следовать README. И именно поэтому нынешний релиз можно считать не просто очередным обновлением «опенсорса», а сменой масштаба: голосовая генерация выходит из лабораторий в бытовую норму — наравне с текстом и картинками.

Alibaba открыла Qwen3-TTS: клонирование голоса за 3 секунды и синтез речи в реальном времени

Alibaba в новостях

7 подходов к профилактике аварий ЦОД и кризис-менеджменту: кейсы Alibaba, Google и не только

Alibaba готовится вывести на IPO свое подразделение по выпуску чипов

Bloomberg узнал о планах Alibaba провести IPO подразделения по разработке ИИ-чипов

Бизнес

Дубайский шоколад в Fix Price: стоит ли пробовать? Мой честный обзор

Чемпион Евро-2016 Нани перешел в казахстанский клуб

Губернатор Мурманской области Андрей Чибис и председатель правления группы «Аквилон» Александр Фролов обсудили проект КРТ в Ленинском округе Мурманска

Культура

Пианист из Ижевска получил грант Президента России

Виктория Боня отказалась от сына из-за денег — сказала всё что думает

Спорт

Куколка! Анна Курникова появилась на публике после рождения четвертого ребенка

Баскетбола и зрелищ: как Media Basket привлек тысячи зрителей и заработал миллионы

Политика

Шредер: с РФ необходимо наладить сотрудничество в сфере энергоресурсов

Зеленский назвал Москву и Петербург главными врагами Киева

Общество

Супруга Хайдарова подарила Волочковой сертификат на 10 млн рублей

Блогерша Алена Водонаева сделала инъекцию с ДНК лосося

Авторы

Маэстро-невидимка // В Московском театре мюзикла отметили юбилей Раймонда Паулса

Корпоративный Университет «ЛокоТех» организовал обучение для «Норильского никеля»

Новости тенниса