Выбор ASR/TTS-провайдера
При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.
Вы также можете оставить вариант По умолчанию. В этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у одного провайдера канал будет переключен на другого.
Настройка ASR
При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.
Подключение | Настройки | Описание |
---|---|---|
Язык | Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Google. | |
Модель | Для распознавания речи используется одна из моделей машинного обучения. Google обучил эти модели для определенных типов и источников звука. В таблице перечислены модели, доступные для каждого языка: • Command and search — используйте эту модель для распознавания речи в коротких аудиофайлах, например голосовых команд. • Default — используйте эту модель в любых других случаях. • Phone call — используйте эту модель для распознавания речи во время телефонного звонка. Модель доступна только при использовании собственного подключения ASR. | |
Яндекс | Язык | Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Яндекса. |
Модель | Для распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса. | |
Распознавание чисел | Если параметр включен, то в распознанном тексте указываются числительные, а не числа (например, тринадцать вместо 13). | |
Сниженная чувствительность к шуму | Уменьшает чувствительность распознавания к фоновому шуму. | |
Tinkoff | У подключения ASR от Tinkoff нет дополнительных настроек. | |
Azure | Язык | Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Microsoft. |
АСМ Решения | Модель | Для распознавания используется одна из моделей машинного обучения. АСМ Решения обучили эти модели на данных из различных предметных областей. |
SaluteSpeech | Сервис поддерживает только русский язык. Чтобы использовать его, сначала создайте подключение. |
Настройка TTS
При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.
Подключение | Настройки | Описание |
---|---|---|
Язык | Сервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Google. | |
Голос | Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Google. По умолчанию используется голос: • en-US-Wavenet-A для английского; • ru-RU-Wavenet-B для русского; • cmn-CN-Wavenet-B для китайского; • Wavenet-A для других языков. | |
Скорость | Темп или скорость речи, где 1 — нормальная скорость определенного голоса. | |
Высота голоса | Высота голоса, где 20 — увеличение на 20 полутонов от исходного тона, а -20 — соответствующее уменьшение. | |
Повышение громкости | Увеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении +6.0 дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать +10.0 дБ. | |
Яндекс | Язык | Сервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Яндекса. |
Голос | Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Яндекса. По умолчанию используется голос: • alena для русского; • alyss для других языков. | |
Скорость | Темп или скорость речи, где 1 — нормальная скорость определенного голоса. | |
Azure | Голос | Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Microsoft. JAICP поддерживает работу только с нейронными голосами. В названии таких голосов должно быть слово «neural». |
Aimyvoice | Голос | Aimyvoice — платформа для синтеза речи от Just AI, где вы можете подобрать готовый голос для вашего проекта (например, игры или аудиокниги), а также обучать собственные голоса на своих наборах. |
SaluteSpeech | Сервис поддерживает только русский язык. Чтобы использовать его, сначала создайте подключение. |
Yandex v3
В настройках TTS от Яндекса доступен дополнительный переключатель Включить Yandex v3. Если переключатель активен, для синтеза речи используется третья версия протокола Yandex SpeechKit.
Возможность сменить версию протокола находится в раннем доступе. Обратитесь к нам по адресу client@just-ai.com за подробной информацией.
Если используется третья версия протокола, для подключения дополнительно доступны настройки:
- Громкость — громкость относительно цифровой полной шкалы LUFS от −145 до 0. Рекомендуемый диапазон значений — от −20 до −16 LUFS.
- Использовать переменные — если переключатель активен, для синтеза речи используется технология Yandex SpeechKit Brand Voice Adaptive с поддержкой переменных.
-
При использовании Yandex v3 длина фраз, которые подаются на синтез, не должна превышать 250 символов на протяжении 24 секунд, включая пробелы и знаки препинания. В противном случае провайдер вернет ошибку.
-
При активном переключателе Использовать переменные в сценарии не работает тег
a
и метод$reactions.answer
. Возможно только воспроизведение аудио через тегaudio
или$reactions.audio
, а также вызов$reactions.ttsWithVariables
.