Современные методы распознавания личности по голосу демонстрируют высокую точность при обработке подлинного человеческого голоса, однако их главным недостатком является уязвимость к спуфингу. Основной тенденцией, присущей современным исследованиям методов обнаружения спуфинга систем распознавания личности по голосу, является доминирование субъектонезависимых систем. Несмотря на это, существуют исследования, свидетельствующие о перспективности применения субъектозависимого подхода к обнаружению спуфинга. Тем не менее, эффективность его использования ранее не была изучена применительно к обнаружению синтезированного голоса. Цель данного исследования - сравнить точность, которую демонстрируют субъектозависимая и субъектонезависимая системы обнаружения синтезированного голоса, использующие одинаковые алгоритмы извлечения голосовых признаков и модели машинного обучения. Кроме того, мы оцениваем влияние способа обучения субъектозависимых моделей, а также доступного количества обучающих данных диктора, на точность обнаружения синтезированного голоса...
Современные методы распознавания личности по голосу демонстрируют высокую точность при обработке подлинного человеческого голоса, однако их главным недостатком является уязвимость к спуфингу. Основной тенденцией, присущей современным исследованиям методов обнаружения спуфинга систем распознавания личности по голосу, является доминирование субъектонезависимых систем. Несмотря на это, существуют исследования, свидетельствующие о перспективности применения субъектозависимого подхода к обнаружению спуфинга. Тем не менее, эффективность его использования ранее не была изучена применительно к обнаружению синтезированного голоса. Цель данного исследования - сравнить точность, которую демонстрируют субъектозависимая и субъектонезависимая системы обнаружения синтезированного голоса, использующие одинаковые алгоритмы извлечения голосовых признаков и модели машинного обучения. Кроме того, мы оцениваем влияние способа обучения субъектозависимых моделей, а также доступного количества обучающих данных диктора, на точность обнаружения синтезированного голоса. В качестве набора данных использовался LA-раздел датасета ASVspoof 2019. В качестве объекта экспериментов использовалась система обнаружения спуфинга LFCC-GMM. Для оценки точности обнаружения синтезированного голоса мы использовали такой критерий как процент равных ошибок (EER). В результате исследования мы выяснили, что использование субъектозависимых моделей подлинных данных позволяет существенно повысить точность обнаружения синтезированного голоса без изменения используемых алгоритмов извлечения голосовых признаков и моделей машинного обучения. Кроме того, увеличение объёма данных, используемых для адаптации или обучения субъектозависимой модели подлинных данных, проявило себя как эффективный способ повышения точности обнаружения синтезированного голоса. Применение субъектозависимой модели подлинных данных, обученной на 90 записях диктора, позволило уменьшить процент равных ошибок с 16.86 % до 9.71 %, по сравнению с субъектонезависимой системой.
Engineering / Safety, Risk, Reliability and Quality
Рубрика ГРНТИ:
Общие и комплексные проблемы технических и прикладных наук и отраслей народного хозяйства / Безопасность. Аварийно-спасательные службы / Информационная безопасность. Защита информации
Специальность ВАК:
Технические науки / Информационные технологии и телекоммуникации / Методы и системы защиты информации, информационная безопасность
Приоритет СНТР РФ:
переход к передовым технологиям проектирования и создания высокотехнологичной продукции, основанным на применении интеллектуальных производственных решений, роботизированных и высокопроизводительных вычислительных систем, новых материалов и химических соединений, результатов обработки больших объемов данных, технологий машинного обучения и искусственного интеллекта
АЛЬТМЕТРИКИ:
Просмотров: 61 (35)
Загрузок: 26 (15)
Включено в подборки: 21
Всего оценок: 0
Средняя оценка:
Всего отзывов: 0
ОПИСАНИЕ НА АНГЛИЙСКОМ ЯЗЫКЕ:
ASSESSING ACCURACY OF SPEAKER-SPECIFIC APPROACH TO LOGICAL ACCESS SPOOFING DETECTION
EVSYUKOV M.V.1,
PUTYATO M.M.1,
MAKARYAN A.S.1,
CHEKRASOV A.N.1
1Kuban State Technological University, Krasnodar, Russian Federation
Modern speaker recognition systems display high accuracy while processing bonafide human voices. However, vulnerability to spoofing-attacks is their primary disadvantage. The field of spoofing-attacks detection is currently dominated by speaker-independent systems. In spite of this, there are studies showing the promise of a speaker-specific approach to spoofing detection. Nevertheless, the efficiency of speaker-specific systems of logical access spoofing detection has not been studied previously. The purpose of this research is to compare the accuracy demonstrated by speaker-specific and speaker-independent versions of the same logical access spoofing detection system. In addition, we evaluate the impact of such factors as the training method used for creating speaker-specific models and the available amount of speaker-specific training data on the accuracy of logical access spoofing detection. We used ASVspoof 2019 LA dataset and LFCC-GMM spoofing detection system to conduct the experiments...
Modern speaker recognition systems display high accuracy while processing bonafide human voices. However, vulnerability to spoofing-attacks is their primary disadvantage. The field of spoofing-attacks detection is currently dominated by speaker-independent systems. In spite of this, there are studies showing the promise of a speaker-specific approach to spoofing detection. Nevertheless, the efficiency of speaker-specific systems of logical access spoofing detection has not been studied previously. The purpose of this research is to compare the accuracy demonstrated by speaker-specific and speaker-independent versions of the same logical access spoofing detection system. In addition, we evaluate the impact of such factors as the training method used for creating speaker-specific models and the available amount of speaker-specific training data on the accuracy of logical access spoofing detection. We used ASVspoof 2019 LA dataset and LFCC-GMM spoofing detection system to conduct the experiments. The accuracy of the systems was measured in terms of equal error rate (EER). As a result, we discovered that the use of speaker-specific models of bonafide speech enabled significant improvement of the accuracy of spoofing detection, without changing the feature extraction algorithms or machine learning models used. Additionally, increasing the amount of data used for creating speaker-specific models has proven to be an effective way to improve the accuracy spoofing detection. We consider that it is optimal to use speaker-specific models of bonafide data together with speaker-independent models of spoofed data. Such an approach resulted into reducing the EER from 16.86% to 9.71% when using a speaker-specific training dataset of 90 records.