АНАЛИЗ НЕЙРОСЕТЕВЫХ АРХИТЕКТУР РАСПОЗНАВАНИЯ ДИКТОРОВ

  • Никита Павлович Колмаков Институт проблем передачи информации им. А. А. Харкевича Российской академии наук https://orcid.org/0009-0003-3880-8056
  • Андрей Николаевич Голубинский Институт проблем передачи информации им. А. А. Харкевича Российской академии наук https://orcid.org/0009-0002-4805-7391
Ключевые слова: глубокие нейронные сети, распознавание дикторов, верификация дикторов, глубокие признаки дикторов, биометрия

Аннотация

Работа посвящена исследованию state-of-the-art методов распознавания дикторов, базирующихся на нейросетевом моделировании. В рамках статьи уделяется внимание вторичной параметризации речевого сигнала, которую производят перед обработкой нейронной сетью. Актуальность представленного материала обусловлена появлением новых областей, в которых целесообразнее использовать голос в качестве биометрического ключа, поэтому для успешного создания системы разделения доступа необходимо обладать достоверной информацией о state-of-the-art решениях. Целью работы является исследование и анализ методов распознавания дикторов, которые используют различные архитектурные решения (свёрточные нейронные сети и языковые модели) для извлечения уникальных голосовых особенностей диктора. Представленная оценка методов базируется на метрике — равная частота ошибок (Error Equal Rate), которая является точкой пересечения ошибок первого и второго рода. Использование данной метрики позволяет оценить распределение представлений дикторов в скрытом пространстве нейронной сети. Процесс анализа происходит с использованием двух тестовых англоязычных наборов данных: VoxCeleb-1 и Common Voice 19 соответствующие различным условиям, при которых может происходить процесс распознавания личности. В ходе анализа на тестовых датасетах было установлено, что скрытые внутренние пространства моделей обладает сдвигом в сторону максимального значения ошибки первого или второго рода. Предполагаемый сдвиг определяется с помощью значения порога, по которому принимается решение о схожести дикторов. Предлагаются направления для исследований, которые позволят качественно совершать процедуру распознавания дикторов по голосу в мультиязычном домене. В работе приводятся результаты дополнительного анализа рассматриваемых нейросетевых моделей на русскоязычном наборе данных (новом языковом домене).

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Никита Павлович Колмаков, Институт проблем передачи информации им. А. А. Харкевича Российской академии наук

м.н.с.

Андрей Николаевич Голубинский, Институт проблем передачи информации им. А. А. Харкевича Российской академии наук

д-р техн. наук, доцент, руководитель отдела «Машинного обучения и опознания образов», заведующий лабораторией «Интеллектуального анализа данных и предсказательного моделирования»

Литература

Сорокин В. Н., Цыплихин А. И. Верификация диктора по спектрально-временным параметрам речевого сигнала // Информационные технологии в технических и социально-экономических системах. – 2010. – 10, № 2. – С. 87–104.

Kabir M. M. [et al.] A Survey of Speaker Recognition: Fundamental Theories, Recognition Methods and Opportunities // IEEE Access. – 2021. – Vol. 9. – P. 79236–79263.

Zeinali H. [et al.] BUT System Description to VoxCeleb Speaker Recognition Challenge 2019: arXiv:1910.12592. arXiv, 2019.

Kaye D. H. The error of equal error rates // Law, Probability and Risk. – 2002. – Vol. 1, № 1. – С. 3–8.

Wang H. [et al.] CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking: arXiv:2303.00332. arXiv, 2023.

Desplanques B., Thienpondt J., Demuynck K. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification // Interspeech 2020. – 2020. – P. 3830–3834.

Chen S. [et al.] WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing // IEEE J. Sel. Top. Signal Process. – 2022. – Vol. 16, № 6. – P. 1505–1518.

Baevski A. [et al.] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations: arXiv:2006.11477. arXiv, 2020.

Hsu W.-N. [et al.] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units: arXiv:2106.07447. arXiv, 2021.

Yakovlev I. [et al.] Reshape Dimensions Network for Speaker Recognition // Interspeech 2024. – 2024. – P. 3235–3239.

Nagrani A., Chung J. S., Zisserman A. VoxCeleb: a large-scale speaker identification dataset // Interspeech 2017. – 2017. – P. 2616–2620.

Mozilla Common Voice. – Режим доступа: https://commonvoice.mozilla.org/. (дата обращения: 08.01.2024).

Wan L. [et al.] Generalized End-to-End Loss for Speaker Verification: arXiv:1710.10467. arXiv, 2020.

Jung J. [et al.] D-vector based speaker verification system using Raw Waveform CNN // Proceedings of the 2017 International Seminar on Artificial Intelligence, Networking and Information Technology (ANIT 2017). Bangkok, Thailand: Atlantis Press, 2018.

Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Intespeech 2015. – ISCA, 2015. – P. 3214–3218.

Snyder D. [et al.] X-Vectors: Robust DNN Embeddings for Speaker Recognition // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB: IEEE, 2018. – P. 5329–5333.

Chung J. S., Nagrani A., Zisserman A. VoxCeleb2: Deep Speaker Recognition // Interspeech 2018. – 2018. – P. 1086–1090.

Crochiere R. E., Rabiner L. R. Multirate digital signal processing // Signal Processing. – 1983. – Vol. 5, № 5. – P. 469–470.

He K. [et al.] Deep Residual Learning for Image Recognition: arXiv:1512.03385. arXiv, 2015.

Yu Y.-Q. [et al.] Cam: Context-Aware Masking for Robust Speaker Verification // ICASSP 2021 – 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, ON, Canada: IEEE, 2021. – P. 6703–6707.

Хайкин С. Нейронные сети. Полный курс. Москва : Издательский дом «Вильямс» 2006. – 1104 с.

Vaswani A. [et al.] Attention Is All You Need: arXiv:1706.03762. arXiv, 2023.

facebookresearch/libri-light: dataset for lightly supervised training using the librivox audio book recordings. https://librivox.org/. – Режим доступа: GitHub: https://github.com/ facebookresearch/libri-light (дата обращения: 02.02.2025).

Chen G. [et al.] GigaSpeech: An Evolving, Multi-Domain ASR Corpus with 10,000 Hours of Transcribed Audio // Interspeech 2021. ISCA, 2021. – P. 3670–3674.

Wang C. [et al.] VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation: arXiv:2101.00390. arXiv, 2021.

Hendrycks D., Gimpel K. Gaussian Error Linear Units (GELUs): arXiv:1606.08415. arXiv, 2023.

Cai W., Chen J., Li M. Exploring the Encoding Layer and Loss Function in End-to-End Speaker and Language Recognition System: arXiv:1804.05160. arXiv, 2018.

Lin Y. [et al.] VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark: arXiv:2407.11510. arXiv, 2024.

Ciresan D., Meier U., Schmidhuber J. Multi-column deep neural networks for image classification // 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012. – P. 3642–3649.

Голубинский А. Н. Метод аналитического расчета параметров математических моделей речевого сигнала, построенных на основе теории модуляции // Системы управления и информационные технологии. – 2009. – № 1.3. – C. 332–336.

Голубинский А. Н. Метод оценки частоты основного тона речевого сигнала на основе минимума невязки коэффициентов корреляции // Телекоммуникации. – 2009. – Vol. 8. – P. 16–21.

Сорокин В. Н. Речевые процессы: монография. – Москва : Народное образование, 2012. – 599 с.

Опубликован
2025-09-26
Как цитировать
Колмаков, Н. П., & Голубинский, А. Н. (2025). АНАЛИЗ НЕЙРОСЕТЕВЫХ АРХИТЕКТУР РАСПОЗНАВАНИЯ ДИКТОРОВ. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (3), 88-100. https://doi.org/10.17308/sait/1995-5499/2025/3/88-100
Раздел
Интеллектуальные системы, анализ данных и машинное обучение