Синтезатор речи Amazon имитирует смещения в темпе, высоте и громкости | iot.ru Новости Интернета вещей
93.59 € 99.79

Синтезатор речи Amazon имитирует смещения в темпе, высоте и громкости

Голосовые помощники преобразуют текст в речь (графемную, или буквенную, запись в фонемную). Наиболее совершенные используют ИИ для воспроизведения с нуля, а не объединяют предварительно записанные звуковые фрагменты. Нейронные системы преобразования текста в речь (Neural text-to-speech, NTTS), как правило, воспроизводят речь более естественно по сравнению со стандартными моделями. Однако их реальная ценность заключается в адаптируемости, поскольку такие программы способны имитировать просодию записи или сдвиги в темпе, высоте (ударения) и громкости.

Для создания системы команда разработчиков Amazon использовала просодические функции, которые легче поддаются нормализации, чем необработанные спектрограммы (изображение изменения плотности мощности сигнала от времени), обычно усваиваемые NTTS. Синтезатор выравнивал речевые сигналы с текстом на уровне фонем, наименьших единиц речи, и извлекал из спектрограмм такие функции, как изменения высоты тона или громкости для каждой из них. 

Разработчики утверждают, что решение  работало с «ненадежным» текстом также хорошо, как и с чистыми расшифровками, поскольку в него был интегрирован автоматический распознаватель речи. Программа пыталась определить последовательность фонем, соответствующей данному входному сигналу. Распознаватель представлял эти предположения как распределения вероятностей и методично их исключал, используя информацию о частоте последовательности слов.

В качестве входных данных для обучения системы разработчики взяли низкоуровневые вероятности последовательностей фонем распознавателя речи. Это позволило обучиться общим корреляциям между фонемами и просодическими характеристиками вместо того, чтобы заставлять акустические данные согласовываться с потенциально неточными транскрипциями. 


Подписаться на новости Обсудить

Назад

Комментарии

Текст сообщения*
Защита от автоматических сообщений