Запись речевой базы

Если вы решились записать речевую базу для синтезатора речи RHVoice, то прочитайте следующую ниже информацию.

Синтезатор речи RHVoice основан на параметрическом методе синтеза. Это означает, что при синтезировании текста в речь движок использует не исходные кусочки записи вашей речи, а на основе вашей записи заведомо снимается полная параметрическая модель, а затем RHVoice пытается как бы изобразить параметры вашего голоса в тех или иных ситуациях. Процесс снятия параметров вашей записи называется тренировкой речевой базы.

Процесс тренировки речевой базы очень детальный и кропотливый. Каждый лишний звук, каждый неверный звуковой файл должны быть очищены и приведены к стандартам дикторской речи без каких-либо шумов, посторонних звуков, каждый огрех в записи должен быть убран. Запись аудио-материала в цифровой файл — это необратимый процесс. Наличие того или иного огреха в записи не может быть убрано со стопроцентным результатом. И чем больше ошибок было допущено при записи, тем хуже будет результат.

На рынке программного и аппаратного обеспечения присутствуют всевозможные шумовые редакторы, подавители реверберации, очистки материала от каких-либо посторонних шумов, будь то наличия слюней во рту у диктора или кратковременных всплесков. Однако, все они работают на вычитании тех или иных спектров из аудиофайла, А при записи аналогового звука в цифровой файл звук кодируется не слоями, а единым потоком. Это значит, что и шум, и слюни, и кратковременные всплески как бы вплетаются в полезный сигнал вашего голоса. Если мы вычитаем какой-либо фрейм спектра из файла, страдает и полезный сигнал. К примеру, представьте яблоко. Красивое, спелое, но на нем есть несколько гнилых мест. Вы срезаете эти гнилые места, и яблоко уже не цельное, а форма его нарушается.

Чтобы движок RHVoice взял самое лучшее из вашего голоса, и синтезируемый звук был более похож на ваш голос, мы должны дать ему изначально кристально чистый, четкий, артикулированный сигнал. Разумеется, наш звукорежиссер делает все возможное, чтобы оригинальная запись стала еще лучше, однако если оригинал на этапе записи был грязным, мутным, низкокачественным, то как бы мы ни старались его улучшить, на выходе получится искаженная, неверная запись.

Именно поэтому перед тем, как предложить свой голос, вы должны проверить возможность обеспечить соответствие своей аудиозаписи требованиям нашего стандарта качества.

Технические стандарты качества

Внимание! Данные рекомендации необходимо соблюдать только в том случае, если вы сами будете производить запись. Возможность записи на профессиональной студии избавит вас от проверки абсолютно всех пунктов, следующих ниже.

  1. Убедитесь, что ваша комната подходит для записи речи. Комната должна не иметь первичных отражений, максимально быстро гасить в себе вторичные отражения с кривой гашения (демпингом) в низкую сторону, а ваш речевой диапозон не должен гудеть. Идеал — дикторская тон-камера.
  2. Убедитесь, что все лишнее отсекается. В записи не должно быть «заплёвов» в микрофон на взрывных согласных. Используйте поп-фильтр или другие средства отсечения излишнего ветра. Вы должны находиться в спокойном помещении, в котором отсутствуют какие-либо посторонние шумы. Перелистывайте страницы, прокручивайте текст с помощью мыши или клавиатуры, меняйте позицию на вашем рабочем месте в промежутке между предложениями.
  3. Убедитесь, что чувствительность микрофона в вашем распоряжении. Запись должна быть сделана максимально близко к микрофону с погашенной чувствительностью до момента полного отсечения посторонних звуков.
  4. Убедитесь, что ваш микрофон надлежащего качества. Бытовые микрофоны, такие как в вашем ноутбуке, телефоне и других устройствах для повседневного использования категорически не подходят. Желательно иметь односторонненаправленный конденсаторный микрофон хотя бы среднего ценового диапозона. Динамический микрофон не возбраняется, но должен находиться в категории профессионального и должен уверенно передавать ваш голос. Микрофоны высших категорий и ценовых диапозонов жарко приветствуются с одной оговоркой: это должен быть «ваш микрофон», то есть, должен вам подходить. Если вы профессиональный диктор, вы наверняка понимаете о чем говорится в этом пункте.
  5. Убедитесь, что предусилитель для вашего микрофона вносит минимум искажений. Предусилитель не должен вносить ламповых искажений, добавлять характер, компрессию, гейт.
  6. Убедитесь, что ваш звуковой тракт записи вносит минимум шума. Запись не должна содержать наводок от электросети (так называемый Hum), запись не должна содержать наводок от действующей компьютерной периферии, а соотношение сигнал/шум должны быть хотя бы в пределах 50-60 децибел.
  7. Убедитесь, что аудиофайлы исходного качества. Файлы не должны проходить никаких обработок, будь то подавители шума, подавители эха, не должны быть ресемплированы, перекодированы. Запись должна быть произведена в формат Wave, с частотой семпла (Sample rate) 44100 или 48000 Гц, глубиной кодирования (Bit depth) 16 или 24 бит, моно (Mono). Запись с более высокими значениями допускается, но не требуется, поскольку основной спектр человеческого голоса укладывается в левее обозначенные показатели. Запись обязательно должна производиться с одного источника, т.е., стерео-запись не допускается на физическом уровне!

Дикторские стандарты качества

Если вы являетесь профессиональным диктором, большинство рекомендаций ниже вы воспримете с ухмылкой. Мы понимаем ваше легкое негодование. Именно поэтому пункты, которые должны быть выполнены всеми без исключениями мы подчеркнем, а пункты, которые профессионалы знают и без нас останутся обычными. Рекомендации составлял звукорежиссер, имеющий за плечами двенадцать лет активной работы на студии звукозаписи и он не понаслышке знает что у профессиональных исполнителей будь то дикторской речи или вокального опуса, подвешано на рефлексах, а что — нет.

  1. Речь должна быть размеренной. Читайте текст спокойно, не торопясь, чтобы каждое слово было максимально понятно. Даже если ваша рабочая скорость является быстрее умеренной и вы себя чувствуете в ней уверенно. Эта рекомендация связана с методом обучения параметрической модели.
  2. Речь должна быть четко артикулированной. Артикулируйте твердо, чтобы каждая согласная буква и каждое окончание было четкое.
  3. Речь должна быть лишена артистизма. Читайте текст так, какбудто вы читаете закадровый текст к документальному фильму. Допускаются умеренные восклицательные и вопросительные интонации.
  4. Речь должна быть однотонна. Обращаем внимание: не монотонна, а однотонна! Пытайтесь придерживаться интонации и положения перед микрофоном, принятых на начале записи. При поэтапной записи, старайтесь «попасть» в предыдущий этап.
  5. Речь должна быть лишена естественных дефектов. Воздержитесь от записи при ринитах, ангинах, ларингитах, фарингитах, трахеитах или других болезнях, нарушающих естественное звукоизвлечение. Этот пункт не имеет значения, если какой-либо из дефектов речи постоянный или является вашей «фишкой».
  6. Речь должна быть уверенной. Если в процессе записи вы почувствовали, что устали, остановитесь на несколько часов. Обычно хватает двух-трех часов для относительного отдыха речевого аппарата.
  7. Речевой аппарат должен быть относительно чист. Старайтесь не пить много воды в процессе записи, поскольку это дает скопление слюней во рту. В день записи Воздержитесь от шоколада, кофе, газированных напитков, орехов, сладкого. Перед записью выпейте несладкий чай и перекусите спокойной пищей.

Тем не менее, мы хотим заметить, что речь должна быть естественной, расслабленной. Вам придется найти свой баланс между теми рекомендациями, которые мы описали и своим, неповторимым, голосом. Помните, что ваш голос может быть использован в разных сценариях, начиная с чтения литературы, заканчивая повседневным озвучиванием персонального компьютера незрячего пользователя.

Фрагмент для проверки голоса и качества записи присылайте на rhvoice@tiflo.org. Лучше всего записать не менее десяти предложений.

Речевые базы

Скачать первую базу для русского языка
Скачать вторую базу для русского языка