Разметка логов
Разметка логов используется для обработки «сырых» логов, чтобы выделить в них потенциальные интенты и наполнить их тренировочными фразами. Она будет полезна, если у вас есть собственные данные, которые можно использовать для обучения бота. Если их нет, но бот уже какое-то время проработал и накопил данные о диалогах, дообучите интенты.
Чтобы воспользоваться разметкой логов:
-
Перейдите в проект и на панели управления нажмите NLU → Разметка логов.
-
Если ранее вы уже пользовались разметкой логов, нажмите Новый набор фраз.
-
Подготовьте файл с фразами, которые хотите обработать.
- Требования к файлу: формат TXT, кодировка UTF-8.
- Внесите в файл не более 10 000 фраз.
- Расположите каждую фразу на отдельной строке.
- Сократите фразы длиннее 500 символов, или они будут удалены.
-
Прикрепите файл.
После загрузки файла фразы появятся в разделе Все фразы.
Чтобы наполнить новые и уже существующие интенты загруженными фразами:
- Предобработайте фразы.
- Воспользуйтесь методами разметки.
- Распределите фразы по интентам.
- Сохраните их в интенты.
Предобработка фраз
Чтобы распределять фразы по интентам было проще, необходимо предварительно их обработать:
-
Перейдите на вкладку Разбор фраз → Предобработка фраз.
-
Настройте параметры:
- Удалить специальные символы — удаление всех символов, кроме букв и цифр.
- Удалить короткие фразы — удаление всех фраз короче указанного числа знаков с учетом пробелов.
- Удалить длинные фразы — удаление всех фраз длиннее указанного числа знаков с учетом пробелов.
- Исправить опечатки — исправление орфографических ошибок и опечаток. Параметр включен по умолчанию и доступен только для русского и украинского языков.
- Удалить стоп-слова — словарь стоп-слов встроен в платформу и доступен только для русского языка.
- Распознать сущности —
поиск активных системных и пользовательских сущностей во фразах.
Например: «завтра в 16:00» будет заменено на «завтра в
@duckling.time
». - Удалить дубликаты — после удаления останется только одно вхождение для каждой фразы. Параметр включен по умолчанию. ? > Если вы хотите перед удалением просмотреть дубликаты, отключите этот параметр и воспользуйтесь разметкой по дубликатам.
-
Нажмите Обработать.
Методы разметки
Если вы обрабатываете большой объем фраз, методы разметки помогут сгруппировать их, чтобы упростить распределение фраз по интентам. Для этого на вкладке Разбор фраз в разделе Загруженные логи нажмите Разметить и выберите метод разметки.
Вы можете разметить фразы:
После разметки датасета распределите фразы по интентам.
Вы также можете распределить фразы по интентам вручную:
-
Выберите фразу или несколько фраз и нажмите Добавить в интенты. Появится окно выбора интента.
-
Выберите подходящий интент или создайте новый. После этого нажмите Добавить фразу.
-
Перейдите на вкладку Сохранение в интенты на верхней панели, чтобы подтвердить добавление.