Метод анализа речевого сигнала для автоматического определения агрессии в разговорной речи

  • Алёна Николаевна Величко Санкт-Петербургский Федеральный исследовательский центр РАН https://orcid.org/0000-0002-8503-8512
Ключевые слова: компьютерная паралингвистика, деструктивное поведение, агрессия, автоматическое определение агрессии в разговорной речи, речевые технологии, мультиклассовая классификация, машинное обучение

Аннотация

В последние годы все более актуальной становится тема определения деструктивного поведения людей в сети Интернет для обеспечения их психологического комфорта. Деструктивное поведение является разрушительным поведением, а агрессия в европейской культуре представлена как мотивированное деструктивное поведение, которое может быть направлено как вовне, так и на себя, а также противоречит общепринятым социальным нормам. Данная работа рассматривает агрессию как паралингвистические явление, то есть, то, как агрессия проявляется в речи, а не то, что именно человек говорит. В статье представлены понятие и виды агрессии, приведен краткий анализ существующих работ. Представлена формальная постановка мультиклассовой задачи классификации и описание предложенного метода определения агрессии в речи. Были проведены представлены экспериментальные исследования методов классификации для автоматического определения агрессии, где лучшим оказался метод случайного леса, поскольку с его помощью удалось получить наилучшие и наиболее стабильные результаты. На основе полученных экспериментальных исследований был разработан предлагаемый метод определения агрессии в разговорной речи. Были использованы многомодальные корпуса Stress at Service Desk Dataset и Aggression in Trains, из которых были извлечены аудио дорожки для обучения и тестирования моделей с использованием 5-кратной перекрестной валидации. Предложенный метод представляет собой ансамбль из методов случайного леса, обученных на различных наборах акустических признаков с различными весами. Лучший результат, полученный с использованием предложенного метода равен 76,5 % по показателю невзвешенной средней полноты, и является одним из лучших среди аналогичных методов определения агрессии в разговорной речи.

Скачивания

Данные скачивания пока не доступны.

Биография автора

Алёна Николаевна Величко, Санкт-Петербургский Федеральный исследовательский центр РАН

н.с. лаборатории Речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН

Литература

1. Karpov A., Kaya H. and Salah A. (2016) State-of-the-art tasks and achievements of paralinguistic speech analysis systems. Scientific and Technical Journal of Information Technologies Mechanics and Optics. 16(4). P. 581–592. DOI
2. Buss A. and Durkee A. (1957) An inventory for assessing different kinds of hostility. Journal of Consulting Psychology. 21(4). P. 343–349. DOI
3. Busso C., Bulut M., Lee C. [et al.] IEMOCAP: interactive emotional dyadic motion capture database. Language Resour Evaluat. 2008. 42(4). P. 335–359.
4. Egas-López J. V., Vetráb M., Tóth L. and Gosztolya G. (2021) Identifying Conflict Escalation and Primates by Using Ensemble X-Vectors and Fisher Vector Features. In Proc. of INTERSPEECH-2021. P. 476–480. DOI
5. Lefter I., Burghouts G. J. and Rothkrantz L. J. (2014) An audio-visual dataset of human–human interactions in stressful situations. Journal on Multimodal User Interfaces. 8(1). P. 29–41.
6. Lefter I. and Jonker C. M. (2017) Aggression recognition using overlapping speech. Seventh International Conference on Affective Computing and Intelligent Interaction (ACII). P. 299–304. DOI
7. Lefter I., Rothkrantz L. and Burghouts G. (2013) A comparative study on automatic audio–visual fusion for aggression detection using meta-information. Pattern Recognition Letters. 34(15). P. 1953–1963.
8. Livingstone S. R. and Russo F. A. (2018) The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE. 13(5): e0196391. DOI
9. McWilliams N. (2011) Psychoanalytic diagnosis: Understanding personality structure in the clinical process. 2nd ed. Guilford Press. 426.
10. Perepelkina O., Kazimirova E. and Konstantinova M. (2018) RAMAS: Russian Multimodal Corpus of Dyadic Interaction for studying emotion recognition. PeerJ Preprints 6:e26688v1. DOI
11. Sahoo S. and Routray A. (2018) Detecting Aggression in Voice Using Inverse Filtered Speech Features. IEEE Transactions on Affective Computing. 9(2). DOI
12. Schuller B., Batliner A., Bergler C. [et al.] (2021) The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19 Cough, COVID-19 Speech, Escalation & Primates. In Proc. of INTERSPEECH-2021. P. 431–435. DOI
13. Sobin C. and Alpert M. (1999) Emotion in Speech: The Acoustic Attributes of Fear, Anger, Sadness, and Joy. J Psycholinguist. 28. 347–365. DOI
14. Zadeh A., Liang P., Poria S. [et al.] (2018) Multi-attention recurrent network for human communication comprehension. Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. P. 5642–5649.
15. Zhou Z., Xu Y. and Li M. (2021) Detecting Escalation Level from Speech with Transfer Learning and Acoustic-Lexical Information Fusion. arXiv preprint. arXiv:2104.06004v2.
Опубликован
2022-12-26
Как цитировать
Величко, А. Н. (2022). Метод анализа речевого сигнала для автоматического определения агрессии в разговорной речи. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (4), 180-188. https://doi.org/10.17308/sait/1995-5499/2022/4/180-188
Раздел
Компьютерная лингвистика и обработка естественного языка