Исследование подходов к классификации эмоций в невербальном речевом поведении на основе машинного обучения
Аннотация
Распознавание эмоций является актуальной задачей ввиду активного развития систем человеко-машинного взаимодействия и цифровых систем коммуникации. В области автоматического распознавания эмоций исследуется, как правило, поведенческая компонента структуры эмоций, которую проще всего анализировать бесконтактно и без участия испытуемого. Экспрессивная компонента эмоций может быть представлена в различных модальностях: мимические выражения, поза и двигательная активность тела, вербальное и невербальное речевое поведение. Наряду с другими модальностями, невербальное речевое поведение может быть использовано для опосредованного распознавания эмоций. Его анализ становится особенно актуальным в случае недостатка или отсутствия данных других модальностей, а также в моделях многомодального распознавания. В данной статье рассматриваются вопросы распознавания эмоций в речи на основе обработки признаковых представлений записей речи в пространстве признаков eGeMAPS, позволяющем выделить наиболее значимую информацию о невербальном проявлении эмоций в аудиосигнале. Распознавание эмоций выполнялось на следующих наборах данных: CREMA-D, IEMOCAP, Emo-DB, RAVDESS, SAVEE, TESS, а также на их комбинациях. Для предварительной оценки применимости того или иного набора данных в рассматриваемом признаковом пространстве была использована предварительная визуализация данных при помощи алгоритма t-SNE. В качестве методов классификации были выбраны методы, основанные на метрической оценке взаимного расположения данных относительно друг друга: метод k-ближайших соседей и метод опорных векторов. В статье приводятся результаты оценки качества классификации исследуемых алгоритмов на основе следующих метрик: доля правильных ответов, точность, полнота. Проведенные эксперименты показали, что метод опорных векторов показывает лучшие результаты в задаче многоклассовой классификации, в то время как метод k-ближайших соседей — в задаче бинарной классификации. При распознавании отдельных классов оба метода достигают наибольшую, не ниже 0,55, точность при распознавании «гнева», наименьшую для классов «счастья» и «отвращения».
Скачивания
Литература
2. Scherer K. R., Johnstone T., Klasmeyer G. Vocal expression of emotion // Oxford University Press, 2003. P. 433–456.
3. Banse R., Scherer K. R. Acoustic profiles in vocal emotion expression // Journal of personality and social psychology. 1996. Vol. 70. No. 3. P. 614.
4. Livingstone S. R., Russo F. A. The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English // PloS one. 2018. Vol. 13. No. 5. P. e0196391.
5. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W., Weiss B. A database of German emotional speech // In 9th European Conference on Speech Communication and Technology (Inter-speech’2005 — Eurospeech). Lisbon, Portugal, 2005. No. 4. P. 1517–1520.
6. Komalova L. P. Auditory-perceptual profile (image) of an aggressor // Bulletin of the Moscow State Linguistic University. Humanitarian sciences. 2016. No. 7 (746). P. 116–126.
7. Komalova L. P. Comparing auditory and visual typesof perception of aggressive verbal behavior // Bulletin of the Moscow State Linguistic University. Humanitarian sciences. 2016. No. 15 (754). P. 114–128.
8. Eyben F., Wöllmer M., Schuller B. Opensmile: the munich versatile and fast open-source audio feature extractor // Proceedings of the 18th ACM international conference on Multimedia. 2010. P. 1459–1462.
9. Eyben F., Weninger F., Gross F., Schuller B. Recent Developments in openSMILE, the Munich Open-Source Multimedia Feature Extractor // Proceedings of the 21st ACM internationalconference on Multimedia. 2013. P. 835–838.
10. Schuller B., Steidl S., Batliner A., Vinciarelli A., Scherer K., Ringeval F., Chetouani M., Weninger F., Eyben F., Marchi E., Mortillaro M., Salamin H., Polychroniou A., Valente F., Kim S. The INTERSPEECH 2013 computational paralinguistics challenge: Social signals, conflict, emotion, autism // Proceedings of the Annual Conference of the International Speech Communication Association. INTERSPEECH, 2013. P. 148–152.
11. Eyben F., Dietziker J., Staib M., Trost W. The Geneva Minimalistic Acoustic Parameter Set (GeMAPS) for Voice Research and Affective Computing // In IEEE Transactions on Affective Computing. 2016. Vol. 7. No. 2. P. 190–202.
12. Lin J. C., Wu C. H., Wei W. L. Semi-coupled hidden Markov model with state-based alignment strategy for audio-visual emotion recognition // In Proc. Affective Computing and Intelligent Interaction (ACII). 2011. P. 185–194.
13. Eyben F., Petridis S., Schuller B., Pantic M. Audiovisual vocal outburst classification in noisy acoustic conditions // in ICASSP. 2012. P. 5097–5100.
14. Lalitha S., Tripathi S. Emotion detection using perceptual based speech features // 2016 IEEE Annual India Conference (INDICON). IEEE, 2016. P. 1–5.
15. Metallinou A., Lee S., Narayanan S. Audio-visual emotion recognition using Gaussian mixture models for face and voice // In Proc. Int. Symp. Multimedia. 2008. P. 250–257.
16. Petrushin V. A. Emotion recognition in speech signal: experimental study, development, and application // In: Proceedings of ICSLP. 2000. P. 222–225.
17. Kononenko I. Estimating attributes: Analysis and extension of RELIEF // European conference on machine learning. Springer, Berlin, Heidelberg, 1994. P. 171–182.
18. Satt A., Rozenberg S., Hoory R. Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms // Interspeech. 2017. P. 1089–1093.
19. Trigeorgis G., Ringeval F., Brueckner R., Marchi E., Nicolaou M., Schuller B., Zafeiriou S. Adieu Features? End-to-end Speech Emotion Recognition using a Deep Convolutional Recurrent Network // 2016 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2016. P. 5200–5204.
20. Elshaer M. E. A., Wisdom S., Mishra T. Transfer learning from sound representations for anger detection in speech // arXiv preprint arX-iv:1902.02120. 2019.
21. Aytar Y., Vondrick C., Torralba A. Sound-net: Learning sound representations from unlabeled video // Advances in neural information processing systems. 2016. P. 892–900.
22. Zeng Z., Pantic M., Roisman G. I., Huang T. S. A survey of affect recognition methods: audio, visual, and spontaneous expressions // IEEE Trans. Pattern Anal. Mach. Intell. 2009. No. 31(1). P. 39–58.
23. Maaten L., Hinton G. Visualizing data using t-SNE // Journal of machine learning research. 2008. Vol. 9. No. Nov. P. 2579–2605.
24. Chomboon K., Chujai P., Teerarassamee P., Kerdprasop K., Kerdprasop N. An empirical study of distance metrics for k-nearest neighbor algorithm // Proceedings of the 3rd international conference on industrial application engineering. 2015. P. 280–285.
25. Vapnik V. N., Chervonenkis A. Ya. Theory of pattern recognition // Moscow: Nauka, 1974. 416 p.
26. Vapnik V. The Nature of Statistical Learning Theory // Springer Science & Business Media 1999, 314 p.
27. Peterson L. E. K-nearest neighbor // Schol-arpedia. 2009. Vol. 4. No. (2). P. 1883.
28. Tax D. M., Duin P. Feature scaling in support vector data descriptions // Learning from Imbalanced Datasets. 2000. P. 25–30.
29. Busso C., Bulut M., Lee C., Kazemzadeh A., Mower Provost E., Kim S., Chang J., Lee S., Narayanan S. IEMOCAP: Interactive emotional dyadic motion capture database // Language resources and evaluation. 2008. Vol. 42. No. 4. P. 335.
30. Cao H., Cooper D., Keutmann M., Gur R., Nenkova A., Verma R. CREMA-D: Crowd-sourced emotional multimodal actors dataset // IEEE transactions on affective computing. 2014. Vol. 5. No. 4. P. 377–390.
31. Jackson P., Haq S. Surrey audio-visual expressed emotion (savee) database // University of Surrey: Guildford, UK, 2014.
32. Pichora-Fuller M. K., Dupuis K. Toronto emotional speech set (TESS) // Scholars Portal Dataverse. 2020.
33. Ekman P. Basic emotions // In T. Dalgleish & M. Power (Eds.), Handbook of cognition and emotion. Chichester: Wiley, 1999.
34. Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R., Dubourg V., Vanderplas J. Scikit learn: Machine learning in Python // The Journal of machine Learning research. 2011. Vol. 12. P. 2825–2830.
35. Poličar P. G., Stražar M., Zupan B. Embedding to Reference t-SNE Space Addresses Batch Effects in Single-Cell Classification // In: Kralj Novak P., Šmuc T., Džeroski S. (eds) Discovery Science. DS 2019. Lecture Notes in Computer Science. Springer, Cham, 2019.Vol. 11828.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).