АНАЛИЗ НЕЙРОСЕТЕВЫХ АРХИТЕКТУР РАСПОЗНАВАНИЯ ДИКТОРОВ
Аннотация
Работа посвящена исследованию state-of-the-art методов распознавания дикторов, базирующихся на нейросетевом моделировании. В рамках статьи уделяется внимание вторичной параметризации речевого сигнала, которую производят перед обработкой нейронной сетью. Актуальность представленного материала обусловлена появлением новых областей, в которых целесообразнее использовать голос в качестве биометрического ключа, поэтому для успешного создания системы разделения доступа необходимо обладать достоверной информацией о state-of-the-art решениях. Целью работы является исследование и анализ методов распознавания дикторов, которые используют различные архитектурные решения (свёрточные нейронные сети и языковые модели) для извлечения уникальных голосовых особенностей диктора. Представленная оценка методов базируется на метрике — равная частота ошибок (Error Equal Rate), которая является точкой пересечения ошибок первого и второго рода. Использование данной метрики позволяет оценить распределение представлений дикторов в скрытом пространстве нейронной сети. Процесс анализа происходит с использованием двух тестовых англоязычных наборов данных: VoxCeleb-1 и Common Voice 19 соответствующие различным условиям, при которых может происходить процесс распознавания личности. В ходе анализа на тестовых датасетах было установлено, что скрытые внутренние пространства моделей обладает сдвигом в сторону максимального значения ошибки первого или второго рода. Предполагаемый сдвиг определяется с помощью значения порога, по которому принимается решение о схожести дикторов. Предлагаются направления для исследований, которые позволят качественно совершать процедуру распознавания дикторов по голосу в мультиязычном домене. В работе приводятся результаты дополнительного анализа рассматриваемых нейросетевых моделей на русскоязычном наборе данных (новом языковом домене).
Скачивания
Литература
Сорокин В. Н., Цыплихин А. И. Верификация диктора по спектрально-временным параметрам речевого сигнала // Информационные технологии в технических и социально-экономических системах. – 2010. – 10, № 2. – С. 87–104.
Kabir M. M. [et al.] A Survey of Speaker Recognition: Fundamental Theories, Recognition Methods and Opportunities // IEEE Access. – 2021. – Vol. 9. – P. 79236–79263.
Zeinali H. [et al.] BUT System Description to VoxCeleb Speaker Recognition Challenge 2019: arXiv:1910.12592. arXiv, 2019.
Kaye D. H. The error of equal error rates // Law, Probability and Risk. – 2002. – Vol. 1, № 1. – С. 3–8.
Wang H. [et al.] CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking: arXiv:2303.00332. arXiv, 2023.
Desplanques B., Thienpondt J., Demuynck K. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification // Interspeech 2020. – 2020. – P. 3830–3834.
Chen S. [et al.] WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing // IEEE J. Sel. Top. Signal Process. – 2022. – Vol. 16, № 6. – P. 1505–1518.
Baevski A. [et al.] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations: arXiv:2006.11477. arXiv, 2020.
Hsu W.-N. [et al.] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units: arXiv:2106.07447. arXiv, 2021.
Yakovlev I. [et al.] Reshape Dimensions Network for Speaker Recognition // Interspeech 2024. – 2024. – P. 3235–3239.
Nagrani A., Chung J. S., Zisserman A. VoxCeleb: a large-scale speaker identification dataset // Interspeech 2017. – 2017. – P. 2616–2620.
Mozilla Common Voice. – Режим доступа: https://commonvoice.mozilla.org/. (дата обращения: 08.01.2024).
Wan L. [et al.] Generalized End-to-End Loss for Speaker Verification: arXiv:1710.10467. arXiv, 2020.
Jung J. [et al.] D-vector based speaker verification system using Raw Waveform CNN // Proceedings of the 2017 International Seminar on Artificial Intelligence, Networking and Information Technology (ANIT 2017). Bangkok, Thailand: Atlantis Press, 2018.
Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Intespeech 2015. – ISCA, 2015. – P. 3214–3218.
Snyder D. [et al.] X-Vectors: Robust DNN Embeddings for Speaker Recognition // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB: IEEE, 2018. – P. 5329–5333.
Chung J. S., Nagrani A., Zisserman A. VoxCeleb2: Deep Speaker Recognition // Interspeech 2018. – 2018. – P. 1086–1090.
Crochiere R. E., Rabiner L. R. Multirate digital signal processing // Signal Processing. – 1983. – Vol. 5, № 5. – P. 469–470.
He K. [et al.] Deep Residual Learning for Image Recognition: arXiv:1512.03385. arXiv, 2015.
Yu Y.-Q. [et al.] Cam: Context-Aware Masking for Robust Speaker Verification // ICASSP 2021 – 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, ON, Canada: IEEE, 2021. – P. 6703–6707.
Хайкин С. Нейронные сети. Полный курс. Москва : Издательский дом «Вильямс» 2006. – 1104 с.
Vaswani A. [et al.] Attention Is All You Need: arXiv:1706.03762. arXiv, 2023.
facebookresearch/libri-light: dataset for lightly supervised training using the librivox audio book recordings. https://librivox.org/. – Режим доступа: GitHub: https://github.com/ facebookresearch/libri-light (дата обращения: 02.02.2025).
Chen G. [et al.] GigaSpeech: An Evolving, Multi-Domain ASR Corpus with 10,000 Hours of Transcribed Audio // Interspeech 2021. ISCA, 2021. – P. 3670–3674.
Wang C. [et al.] VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation: arXiv:2101.00390. arXiv, 2021.
Hendrycks D., Gimpel K. Gaussian Error Linear Units (GELUs): arXiv:1606.08415. arXiv, 2023.
Cai W., Chen J., Li M. Exploring the Encoding Layer and Loss Function in End-to-End Speaker and Language Recognition System: arXiv:1804.05160. arXiv, 2018.
Lin Y. [et al.] VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark: arXiv:2407.11510. arXiv, 2024.
Ciresan D., Meier U., Schmidhuber J. Multi-column deep neural networks for image classification // 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012. – P. 3642–3649.
Голубинский А. Н. Метод аналитического расчета параметров математических моделей речевого сигнала, построенных на основе теории модуляции // Системы управления и информационные технологии. – 2009. – № 1.3. – C. 332–336.
Голубинский А. Н. Метод оценки частоты основного тона речевого сигнала на основе минимума невязки коэффициентов корреляции // Телекоммуникации. – 2009. – Vol. 8. – P. 16–21.
Сорокин В. Н. Речевые процессы: монография. – Москва : Народное образование, 2012. – 599 с.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













