Прорыв АО «СФЕРА» в цифровой трансформации Системы-112 находится в области интеграции в наши программные продукты существующих технологий ИИ, в том числе по онлайн распознаванию речи.
На данный момент все системы онлайн распознавания речи допускают ошибки:
- замена – вместо какого-то слова распознается другое,
- вставка – присутствует лишнее слово,
- удаление – слово пропущено.
Метрика качества — Word Error Rate (WER) — процентное отношение суммы замен, вставок и удалений к общему числу произнесённых слов.
У живого человека, слушающего аудиокнигу WER от 6% до 13% в зависимости от качества записи.
Лучшие лабораторные результаты для автоматического распознавания телефонных разговоров — WER от 10% до 15% (в реальности и онлайн — около 30%).
Человеческий мозг компенсирует WER за счет контекста и общих знаний.
ИИ на данный момент справляется с распознаванием речи хуже живого человека, но тем не менее, это уже результаты, которые позволяют нам решать некоторые проблем:
Мы можем использовать голосовых роботов для распознавания речи заявителя до поднятия трубки оператором. То есть, фактически, опрос может начать уже робот. Это снизит время ожидания для заявителя и время обработки вызова в целом. Распознанный текст позволяет автоматизированно заполнять карточку вызова. Это происходит быстрее, чем заполнение вручную. Даже если оператор опытный и обучен слепой печати, все равно скорость печати вряд ли превысит скорость речи. Робот осуществляет подсветку ключевых слов, фраз и автоматически выбирает индекс происшествия.
В перспективе робот также будет способен на выделение смысловых объектов (ФИО, адрес). автоматическую генерацию скрипта поддержки интервью и плана, выявление в речи индикаторов стресса, беспокойства.