
Вектор технологического прогресса направлен на развитие нейросетей и технологий искусственного интеллекта (ИИ) с целью облегчить людям создание текстового и аудио контента.
Приложение DeepVoice позволяет пользователям озвучивать текст женским голосом в аудиозаписях формата «.wav». Главное при работе с сервисом — грамотно расставить интонацию и добавить «+» перед ударным слогом каждого слова.
Впервые сервис от компании Baidu выпустили в 2017 году. Высококачественная система преобразования текста в речь Deep Voice полностью выстроена на глубоких нейронных сетях.
Система состоит из 5 основополагающих блоков:
1. модель сегментации для определения границ фонем,
2. модель преобразования графем в фонемы,
3. модель прогнозирования длительности фонем,
4. модель прогнозирования фундаментальной частоты
5. модель синтеза звука
Синтез речи используют при работе с мобильным помощником, умным домом на Raspberry Pi, искусственным интеллектом, играми, уведомляющими системами и звуковым интерфейсом.
Голосовые сообщения передают пользователю информацию, если у него нет времени или возможности прочитать текст.
Речь, которую синтезирует система Deep Voice похожа на человеческую. Она не просто преобразовывает печатный текст в голосовой, а умеет создавать цифровые копии голосов людей и менять мужской тембр на женский и наоборот.
Для синтезирования голоса ей необходимо изучить 30-минутные записи реальных людей, учитывая их манеру произношения.
Запускаем нейросеть:
1. авторизоваться на сайте через Google-аккаунт
2. нажатием кнопки «Плей» в левом углу или комбинацией клавиш «Ctrl + Enter»
3. Перейдите на главную страницу и запустите код первой ячейки
4. В третьем блоке совершить идентичные действия
5. прописать любой текст в четвертой ячейке
Популярные системы с технологией искусственного интеллекта
Ярким примером является нейронная сеть DeepMind от компании Google, которая самостоятельно может формировать логические связи, понимать смысл слов и высказываний, не полагаясь на заранее заданные алгоритмы поведения. С каждым годом она развивается, повышая уровень своих способностей.
Нейросеть компании Яндекс с необычным названием “Балабоба” способна самостоятельно дописывать текст на определенную тему, соблюдая логическую структуру и стиль повествования. Модель обучали по Яндекс-страницам, куда вошла Википедия, новостные сайты и даже посты пользователей на форумах и в социальных сетях. Интересно, что генератор системы не пишет на темы политики или религии.
Siri — это персональный голосовой помощник для пользователей Apple-устройств. Программа помогает отыскать нужную информацию, ориентирует в незнакомой местности. Она также способна отправлять сообщения, добавляет события в календарь и многое другое.
Система учится по голосу говорящего определять его настроение и эмоциональное состояние. В будущем эту технологию хотят использовать в колл-центрах, чтобы поднять уровень клиентского обслуживания.