FAQ

Мы собрали ответы на самые часто задаваемые вопросы. Если вы не нашли ответа на свой, напишите нам на e-mail.

В чем отличие от синтеза Яндекса или Сбера?

RHVoice использует статистический параметрический синтез, основанный на скрытой Марковской модели. Говоря простым языком — это устаревший метод синтеза, предыдущая ступень перед нейронными сетями.

Как и при использовании нейронных сетей, конечный голос сохраняет форманту, интонации и другие речевые особенности диктора, но он не настолько очеловечен, чтобы его можно было не отличить от синтезатора речи.

Это позволяет использовать голоса в составе RHVoice, работающего на устройстве обычного пользователя без подключения к интернету, даже на слабом мобильном телефоне.

Где можно послушать пример синтеза речи?

В нашем каталоге голосов на карточке каждого голоса есть плеер с фрагментом оригинальной записи диктора и с демонстрацией работы синтезированного голоса.

Если вы хотите послушать, как работает синтезатор речи с разными параметрами скорости, тона и громкости, вы можете воспользоваться предпросмотром в сервисе «Данные в данные».

По какой лицензии распространяются голоса лаборатории?

По умолчанию, если в репозитории конкретного продукта не указано иное, все наши голоса распространяются по лицензии «Публичная лицензия Creative Commons С указанием авторства-Некоммерческая-Без производных версии 4.0 Международная».

Это связано с тем, что лаборатория, в первую очередь, некоммерческая, и команда, создающая голоса, тратит свои личное время и ресурсы, равно как и большая часть дикторов. Поэтому наша команда против коммерческого использования конечных продуктов.

То есть нельзя интегрировать голоса в какую-то технику?

Если вдруг произошло такое, что какой-то из наших голосов вам крайне необходим, и вы хотите использовать его для озвучивания какого-то прибора, отправьте запрос на интеграцию голоса в ваш продукт на e-mail лаборатории. Если согласие будет дано диктором и нашей командой, вы получите соответствующее разрешение.

Можно создать голос для любого языка?

На текущий момент мы можем создавать голоса только для существующих в синтезаторе RHVoice языков. Для появления голосов других языков необходимо разрабатывать соответствующие языковые модули. Это должна быть совместная работа лингвистов, фонетистов и программистов.

Возможно, через какое-то время, у нас появится такая возможность как у программистов, но даже в этом случае для каждого отдельного модуля нам потребуются языковеды из соответствующей страны.

Как сделать голос?

Поймите, что для создания голоса подходят далеко не все дикторы. Практически из восьмидесяти процентов людей не получится ничего, кроме плохого продукта. Кроме того, аудио-материалы должны быть записаны в студийных условиях, без лишних шумов.

Скриптам, которые извлекают фундаментальную частоту из голоса, нужно иметь за что зацепиться, поэтому голос обязательно должен быть плотным и однотонным, без хрипов и восклицаний.

Пожалуйста, изучите информацию со страниц «стать голосом RHVoice» и «рекомендации по записи». Если после этой информации у вас осталось мнение, что голос подходит, напишите нам на e-mail, желательно сразу прикрепите пример студийной записи речи.

Что нужно для создания голоса?

Нужно от полутора до трех часов качественного студийного аудио-материала — речи диктора, записанной согласно нашим стандартам. После этого требуется около двух месяцев работы нашей команды. И голос готов.

Можно сделать голос из умершего чтеца книг?

Да, но кроме аудиокниги в студийном качестве потребуется еще и разрешение от ближайшего родственника.

Так как использоваться будет не специально подготовленная база, а произвольный материал, потребуется в разы больше работы, а результат может получиться неидеальным.

Можно сделать голос из умершего певца или актера?

Нет, потому что отсутствуют аудиофайлы в студийном качестве с обычной речью этого человека.

Можно использовать песни, интервью или фильмы в качестве базы?

Нет, потому что это не студийное качество. В фильмах есть наложенный бэкграунд, из-за чего запись априори не чиста, а в песнях человек поет, а не говорит.

Тестируете ли вы голоса перед релизом?

Да, конечно же. Большинство наших голосов сначала попадает в группу Вконтакте к бета-тестировщикам, где они обсуждают в беседе сообщества выявленные проблемы и недостатки голоса.

Чтобы попасть в число бета-тестировщиков, вам нужно совершить пожертвование на соответствующей странице, указав в комментарии свое ФИО, а после этого подать заявку в группу Вконтакте.

Почему вы перед релизом не исправили звучание той или иной буквы/цифры?

Процесс создания голоса крайне трудоемок и непредсказуем. На звучание голоса влияет обработка, границы извлекаемых частот, чуть ли не громкость аудио-материала, а первично, конечно же, сам диктор и его речевые особенности.

Создание голоса занимает от одного до двух месяцев, а иногда даже и до полугода и выше, потому что мы беспрестанно лавируем между хорошим ровным звучанием на длинных текстах и проблемами при вводе отдельных символов. Иногда все буквы и цифры могут вводиться идеально, но голос начинает бубнить. Только убираем слишком большое количество низких частот, сразу появляются произвольные растягивания при чтении каких-то словосочетаний. Прибавляем высоких, буквы начинают свистеть. Убираем немного, начинают проваливаться частоты.

Таким образом, на текущий момент, в релиз выходит голос, в котором мы постарались минимизировать большинство проблем, но какие-то в нем все равно остались. И мы о них знаем. Просто если исправим одну букву, возникнут проблемы с тремя другими. Такова технология HTS, и мы ничего с ней сделать не можем.