Исследование подходов к классификации эмоций в невербальном речевом поведении на основе машинного обучения

Михаил Юрьевич Уздяев; Артем Валерьевич Рябинов

doi:10.17308/sait.2020.4/3206

Авторы

Михаил Юрьевич Уздяев Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербургский институт информатики и автоматизации Российской https://orcid.org/0000-0002-7032-0291 (unauthenticated)
Артем Валерьевич Рябинов Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербургский институт информатики и автоматизации Российской https://orcid.org/0000-0002-3572-4493 (unauthenticated)

DOI:

https://doi.org/10.17308/sait.2020.4/3206

Ключевые слова:

эмоциональные вычисления, распознавание эмоций, визуализация многомерных данных, машина опорных векторов, k-ближайших соседей

Аннотация

Распознавание эмоций является актуальной задачей ввиду активного развития систем человеко-машинного взаимодействия и цифровых систем коммуникации. В области автоматического распознавания эмоций исследуется, как правило, поведенческая компонента структуры эмоций, которую проще всего анализировать бесконтактно и без участия испытуемого. Экспрессивная компонента эмоций может быть представлена в различных модальностях: мимические выражения, поза и двигательная активность тела, вербальное и невербальное речевое поведение. Наряду с другими модальностями, невербальное речевое поведение может быть использовано для опосредованного распознавания эмоций. Его анализ становится особенно актуальным в случае недостатка или отсутствия данных других модальностей, а также в моделях многомодального распознавания. В данной статье рассматриваются вопросы распознавания эмоций в речи на основе обработки признаковых представлений записей речи в пространстве признаков eGeMAPS, позволяющем выделить наиболее значимую информацию о невербальном проявлении эмоций в аудиосигнале. Распознавание эмоций выполнялось на следующих наборах данных: CREMA-D, IEMOCAP, Emo-DB, RAVDESS, SAVEE, TESS, а также на их комбинациях. Для предварительной оценки применимости того или иного набора данных в рассматриваемом признаковом пространстве была использована предварительная визуализация данных при помощи алгоритма t-SNE. В качестве методов классификации были выбраны методы, основанные на метрической оценке взаимного расположения данных относительно друг друга: метод k-ближайших соседей и метод опорных векторов. В статье приводятся результаты оценки качества классификации исследуемых алгоритмов на основе следующих метрик: доля правильных ответов, точность, полнота. Проведенные эксперименты показали, что метод опорных векторов показывает лучшие результаты в задаче многоклассовой классификации, в то время как метод k-ближайших соседей — в задаче бинарной классификации. При распознавании отдельных классов оба метода достигают наибольшую, не ниже 0,55, точность при распознавании «гнева», наименьшую для классов «счастья» и «отвращения».

Биографии авторов

Михаил Юрьевич Уздяев, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербургский институт информатики и автоматизации Российской

младший научный сотрудник лаборатории технологий больших данных социокиберфизических систем, Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН), Санкт-Петербургский институт информатики и автоматизации Российской академии наук
Артем Валерьевич Рябинов, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, Санкт-Петербургский институт информатики и автоматизации Российской

программист лаборатории автономных робототехнических систем, Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН), Санкт-Петербургский институт информатики и автоматизации Российской академии наук