Исследователи из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ разработали инновационную модель для распознавания эмоций в человеческой речи. Название технологии — Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER).
Она уже показала впечатляющие результаты: точность распознавания эмоций достигла 74,6 процента на одном из самых сложных датасетов — IEMOCAP (Interactive Emotional Dyadic Motion Capture). Это выше, чем у большинства существующих методов, сообщает пресс-служба Сбербанка.
Как это работает? Сначала система анализирует ключевые характеристики речи, а затем добавляет к ним данные о звуках голоса — например, громкость и тональность. Эти два типа информации объединяются с помощью специального механизма, который эффективно связывает общие черты речи с её деталями. Благодаря этому модель точнее определяет, какие эмоции испытывает говорящий.
Одна из главных проблем, которую решает CA-SER, — это несоответствие между «чистыми» аудиоданными, на которых обычно обучаются модели, и реальными эмоциональными датасетами, где интонации и интенсивность звука могут сильно варьироваться. Это делает технологию особенно полезной для систем автоматического взаимодействия с человеком. Например, её можно использовать в голосовых чат-ботах, колл-центрах, а также в приложениях для мониторинга психологического здоровья, где важно анализировать эмоции в режиме реального времени.
Кроме того, сходный код модели доступен в открытом доступе (open source), что позволяет другим исследователям и учёным использовать её в своих проектах. Это открывает возможности для дополнительных экспериментов, например, для проверки работы модели на других языках и датасетах. Так, CA-SER можно адаптировать для русскоязычных эмоциональных корпусов и применять в голосовых помощниках или контакт-центрах.