Оценка точности субъектозависимого подхода к обнаружению синтезированного голоса

Ключевые слова: спуфинг, атака на биометрическое предъявление, биометрия, синтезированный голос, голосовая аутентификация, распознавание по голосу, распознавание личности, модель смеси гауссовых распределений, LFCC

Аннотация

Современные методы распознавания личности по голосу демонстрируют высокую точность при обработке подлинного человеческого голоса, однако их главным недостатком является уязвимость к спуфингу. Основной тенденцией, присущей современным исследованиям методов обнаружения спуфинга систем распознавания личности по голосу, является доминирование субъектонезависимых систем. Несмотря на это, существуют исследования, свидетельствующие о перспективности применения субъектозависимого подхода к обнаружению спуфинга. Тем не менее, эффективность его использования ранее не была изучена применительно к обнаружению синтезированного голоса. Цель данного исследования — сравнить точность, которую демонстрируют субъектозависимая и субъектонезависимая системы обнаружения синтезированного голоса, использующие одинаковые алгоритмы извлечения голосовых признаков и модели машинного обучения. Кроме того, мы оцениваем влияние способа обучения субъектозависимых моделей, а также доступного количества обучающих данных диктора, на точность обнаружения синтезированного голоса. В качестве набора данных использовался LA-раздел датасета ASVspoof 2019. В качестве объекта экспериментов использовалась система обнаружения спуфинга LFCC-GMM. Для оценки точности обнаружения синтезированного голоса мы использовали такой критерий как процент равных ошибок (EER). В результате исследования мы выяснили, что использование субъектозависимых моделей подлинных данных позволяет существенно повысить точность обнаружения синтезированного голоса без изменения используемых алгоритмов извлечения голосовых признаков и моделей машинного обучения. Кроме того, увеличение объёма данных, используемых для адаптации или обучения субъектозависимой модели подлинных данных, проявило себя как эффективный способ повышения точности обнаружения синтезированного голоса. Применение субъектозависимой модели подлинных данных, обученной на 90 записях диктора, позволило уменьшить процент равных ошибок с 16.86 % до 9.71 %, по сравнению с субъектонезависимой системой.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Михаил Витальевич Евсюков, Кубанский государственный технологический университет

аспирант кафедры кибербезопасности и защиты информации Кубанского государственного технологического университета

Михаил Михайлович Путято, Кубанский государственный технологический университет

доцент кафедры кибербезопасности и защиты информации Кубанского государственного технологического университета

Александр Самвелович Макарян, Кубанский государственный технологический университет

канд. техн. наук, доцент, заведующий кафедрой кибербезопасности и защиты информации Кубанского государственного технологического университета

Александр Николаевич Черкасов, Кубанский государственный технологический университет

канд. техн. наук, доцент кафедры кибербезопасности и защиты информации Кубанского государственного технологического университета, руководитель исследовательского центра компьютерных технологий, систем управления и комплексной безопасности

Литература

1. Evsyukov M., Putyato M. and Makaryan A. (2023) Methods of protection in speaker Verification Systems. AIP Conference Proceedings. Krasnoyarsk, Russian Federation. Vol. 2700. P. 070004. DOI
2. Evsyukov M., Putyato M. and Makaryan A. (2021) Antispoofing Countermeasures in Modern Voice Authentication Systems. CEUR Workshop Proceedings. Yalta, Crimea. Vol. 3057. P. 197–202.
3. Nautsch A. [et al.] (2021) ASVspoof 2019: Spoofing Countermeasures for the Detection of Synthesized, Converted and Replayed Speech. IEEE Transactions on Biometrics, Behavior, and Identity Science. Vol. 3, No. 2. P. 252–265. DOI
4. Yamagishi J. [et al.] (2021) ASVspoof 2021: accelerating progress in spoofed and deepfake speech detection. ASVspoof 2021 Workshop – Automatic Speaker Verification and Spoofing Coutermeasures Challenge. Virtual, France. DOI
5. Paul D., Pal M. and Saha G. (2016) Novel speech features for improved detection of spoofing attacks. Proceedings of Annual IEEE India Conference (INDICON). P. 1–6. DOI
6. Balamurali B. T., Lin K.W.E., Lui S., Chen J-R. and Herremans D. (2019) Toward Robust Audio Spoofing Detection: A Detailed Comparison of Traditional and Learned Features. IEEE Access. Vol. 4. P. 1–13. DOI
7. Lavrentyeva G. [et al.] (2019) STC antispoofing systems for the ASVspoof 2019 challenge. Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech 2020). Graz, Austria. P. 1033–1037. DOI
8. Zhang Y., Jiang F., Duan Z. (2021) OneClass Learning Towards Synthetic Voice Spoofing Detection. IEEE Signal Processing Letters. DOI
9. Cohen A., Rimon I., Aflalo E. and Permuter H. H. (2022) A study on data augmentation in voice anti-spoofing. Speech Communication. Vol. 141. P. 56–67. DOI
10. Lavrentyeva G. [et al.] (2021) Blind speech signal quality estimation for speaker verification systems. Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech 2021). Shanghai, China. P. 1535– 1539. DOI
11. Teng Z., Fu Q., White J., Powell M. and Schmidt D. (2022) SA-SASV: An End-to-End Spoof-Aggregated Spoofing-Aware Speaker Verification System. Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech 2020). Incheon, Korea, 2022. P. 4391–4395. DOI
12. Kinnunen T. and Li H. (2010) An Overview of Text-Independent Speaker Recognition: from Features to Supervectors. Speech Communication. Vol. 52. P. 12–40. DOI
13. Wang X. and Yamagishi J. (2022) A Practical Guide to Logical Access Voice Presentation Attack Detection. In: Frontiers in Fake Media Generation and Detection; edited by M. Khosravy, I. Echizen, N. Babaguchi. Singapore: Springer. P. 169–214. DOI
14. Fatemifar S., Arashloo S. R., Awais M. and Kittler J. (2020) Client-Specific Anomaly Detection for Face Presentation Attack Detection. Pattern Recognition. Vol. 112, No. 8. DOI
15. Suthokumar G., Sriskandaraja K., Sethu V., Ambikairajah E. and Li H. (2020) An analysis of speaker dependent models in replay detection. APSIPA Transactions on Signal and Infor-mation Processing. Vol. 9, No. 1. DOI
16. Hao B. and Hei X. (2019) Voice Liveness Detection for Medical Devices. In: Design and Implementation of Healthcare Biometric Systems; edited by D.R. Kisku, P. Gupta, J.K. Sing. Hershey, USA: IGI Global. P.109–136. DOI
17. Reynolds D. A., Quatieri T. and Dunn R. B. (2000) Speaker Verification Using Adapted Gaussian Mixture Models. Digital Signal Processing. Vol. 10. P. 19–41. DOI
Опубликован
2024-05-28
Как цитировать
Евсюков, М. В., Путято, М. М., Макарян, А. С., & Черкасов, А. Н. (2024). Оценка точности субъектозависимого подхода к обнаружению синтезированного голоса. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 77-93. https://doi.org/10.17308/sait/1995-5499/2024/1/77-93
Раздел
Информационная безопасность