Мы собрали ответы на самые часто задаваемые вопросы. Если вы не нашли ответа на свой, напишите нам на e-mail.
-
В чем отличие от синтеза Яндекса или Сбера?
- RHVoice использует статистический параметрический синтез, основанный на скрытой Марковской модели. Говоря простым языком — это устаревший метод синтеза, предыдущая ступень перед нейронными сетями.
Как и при использовании нейронных сетей, конечный голос сохраняет форманту, интонации и другие речевые особенности диктора, но он не настолько очеловечен, чтобы его можно было не отличить от синтезатора речи.
Это позволяет использовать голоса в составе RHVoice, работающего на устройстве обычного пользователя без подключения к интернету, даже на слабом мобильном телефоне.
-
Где можно послушать пример синтеза речи?
- В нашем каталоге голосов на карточке каждого голоса есть плеер с фрагментом оригинальной записи диктора и с демонстрацией работы синтезированного голоса.
Если вы хотите послушать, как работает синтезатор речи с разными параметрами скорости, тона и громкости, вы можете воспользоваться предпросмотром в сервисе «Данные в данные».
-
По какой лицензии распространяются голоса лаборатории?
- По умолчанию, если в репозитории конкретного продукта не указано иное, все наши голоса распространяются по лицензии «Публичная лицензия Creative Commons С указанием авторства-Некоммерческая-Без производных версии 4.0 Международная».
Это связано с тем, что лаборатория, в первую очередь, некоммерческая, и команда, создающая голоса, тратит свои личное время и ресурсы, равно как и большая часть дикторов. Поэтому наша команда против коммерческого использования конечных продуктов.
-
То есть нельзя интегрировать голоса в какую-то технику?
- Если вдруг произошло такое, что какой-то из наших голосов вам крайне необходим, и вы хотите использовать его для озвучивания какого-то прибора, отправьте запрос на интеграцию голоса в ваш продукт на e-mail лаборатории. Если согласие будет дано диктором и нашей командой, вы получите соответствующее разрешение.
-
Можно создать голос для любого языка?
- На текущий момент мы можем создавать голоса только для существующих в синтезаторе RHVoice языков. Для появления голосов других языков необходимо разрабатывать соответствующие языковые модули. Это должна быть совместная работа лингвистов, фонетистов и программистов.
Возможно, через какое-то время, у нас появится такая возможность как у программистов, но даже в этом случае для каждого отдельного модуля нам потребуются языковеды из соответствующей страны.
-
Как сделать голос?
- Поймите, что для создания голоса подходят далеко не все дикторы. Практически из восьмидесяти процентов людей не получится ничего, кроме плохого продукта. Кроме того, аудио-материалы должны быть записаны в студийных условиях, без лишних шумов.
Скриптам, которые извлекают фундаментальную частоту из голоса, нужно иметь за что зацепиться, поэтому голос обязательно должен быть плотным и однотонным, без хрипов и восклицаний.
Пожалуйста, изучите информацию со страниц «стать голосом RHVoice» и «рекомендации по записи». Если после этой информации у вас осталось мнение, что голос подходит, напишите нам на e-mail, желательно сразу прикрепите пример студийной записи речи.
-
Что нужно для создания голоса?
- Нужно от полутора до трех часов качественного студийного аудио-материала — речи диктора, записанной согласно нашим стандартам. После этого требуется около двух месяцев работы нашей команды. И голос готов.
-
Можно сделать голос из умершего чтеца книг?
- Да, но кроме аудиокниги в студийном качестве потребуется еще и разрешение от ближайшего родственника.
Так как использоваться будет не специально подготовленная база, а произвольный материал, потребуется в разы больше работы, а результат может получиться неидеальным.
-
Можно сделать голос из умершего певца или актера?
- Нет, потому что отсутствуют аудиофайлы в студийном качестве с обычной речью этого человека.
-
Можно использовать песни, интервью или фильмы в качестве базы?
- Нет, потому что это не студийное качество. В фильмах есть наложенный бэкграунд, из-за чего запись априори не чиста, а в песнях человек поет, а не говорит.
-
Тестируете ли вы голоса перед релизом?
- Да, конечно же. Большинство наших голосов сначала попадает в группу Вконтакте к бета-тестировщикам, где они обсуждают в беседе сообщества выявленные проблемы и недостатки голоса.
Чтобы попасть в число бета-тестировщиков, вам нужно совершить пожертвование на соответствующей странице, указав в комментарии свое ФИО, а после этого подать заявку в группу Вконтакте.
-
Почему вы перед релизом не исправили звучание той или иной буквы/цифры?
- Процесс создания голоса крайне трудоемок и непредсказуем. На звучание голоса влияет обработка, границы извлекаемых частот, чуть ли не громкость аудио-материала, а первично, конечно же, сам диктор и его речевые особенности.
Создание голоса занимает от одного до двух месяцев, а иногда даже и до полугода и выше, потому что мы беспрестанно лавируем между хорошим ровным звучанием на длинных текстах и проблемами при вводе отдельных символов. Иногда все буквы и цифры могут вводиться идеально, но голос начинает бубнить. Только убираем слишком большое количество низких частот, сразу появляются произвольные растягивания при чтении каких-то словосочетаний. Прибавляем высоких, буквы начинают свистеть. Убираем немного, начинают проваливаться частоты.
Таким образом, на текущий момент, в релиз выходит голос, в котором мы постарались минимизировать большинство проблем, но какие-то в нем все равно остались. И мы о них знаем. Просто если исправим одну букву, возникнут проблемы с тремя другими. Такова технология HTS, и мы ничего с ней сделать не можем.