Синтезатор речи Amazon имитирует смещения в темпе, высоте и громкости

Александр Бутусов / 26.08.2019

Голосовые помощники преобразуют текст в речь (графемную, или буквенную, запись в фонемную). Наиболее совершенные используют ИИ для воспроизведения с нуля, а не объединяют предварительно записанные звуковые фрагменты. Нейронные системы преобразования текста в речь (Neural text-to-speech, NTTS), как правило, воспроизводят речь более естественно по сравнению со стандартными моделями. Однако их реальная ценность заключается в адаптируемости, поскольку такие программы способны имитировать просодию записи или сдвиги в темпе, высоте (ударения) и громкости.

Для создания системы команда разработчиков Amazon использовала просодические функции, которые легче поддаются нормализации, чем необработанные спектрограммы (изображение изменения плотности мощности сигнала от времени), обычно усваиваемые NTTS. Синтезатор выравнивал речевые сигналы с текстом на уровне фонем, наименьших единиц речи, и извлекал из спектрограмм такие функции, как изменения высоты тона или громкости для каждой из них.

Разработчики утверждают, что решение работало с «ненадежным» текстом также хорошо, как и с чистыми расшифровками, поскольку в него был интегрирован автоматический распознаватель речи. Программа пыталась определить последовательность фонем, соответствующей данному входному сигналу. Распознаватель представлял эти предположения как распределения вероятностей и методично их исключал, используя информацию о частоте последовательности слов.

В качестве входных данных для обучения системы разработчики взяли низкоуровневые вероятности последовательностей фонем распознавателя речи. Это позволило обучиться общим корреляциям между фонемами и просодическими характеристиками вместо того, чтобы заставлять акустические данные согласовываться с потенциально неточными транскрипциями.

Обсудить

Назад