Применение алгоритма аппроксимации графика долей энергии для определения пауз в речевом сигнале

Ключевые слова: доли энергии, смесь радиально-базисных функций, смесь Гауссовых функций, решающая функция

Аннотация

В данной работе рассматривается речевой сигнал как набор фрагментов, содержащих речевые компоненты и фрагменты с шумами, соответствующие паузам между словами. Ставится задача по составлению решающей функции, способной принять или отвергнуть гипотезу об отсутствии речи в отрезке речевого сигнала. На основе субполосного метода для отрезка речевого сигнала составляется его распределение энергий по частотам. Для этого распределения в дальнейшем применяется процедура аппроксимации смесью радиально-базисными функциями (функциями Гаусса). Смесь представляет собой взвешенную сумму радиально-базисных функций и равномерно-распределённой составляющей. По соотношению максимальных значений компонент смеси составляется решающее правило. Для проведения вычислительного эксперимента вводится нелинейность «зона нечувствительности», выбор которой обусловлен особенностями электрической активности путей и центров слуховой системы. В работе приводится результат применения алгоритма определения пауз в речевом сигнале. В качестве рабочего материала использовалась база размеченных речевых фрагментов американского агентства передовых оборонных исследовательских проектов DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. Всего было обработано 100 звукозаписей, размер отрезка анализа был взят 9 миллисекунд, частота дискретизации 16000Гц. Для проверки работоспособности предлагаемого алгоритма были оценены ошибки первого рода «пропуск цели» — когда алгоритм не начал отмечать паузу, но такая отметка присутствует при ручной расстановке, а также ошибки второго рода «ложная тревога» — когда произошла ошибочная постановка паузы. Полученные в ходе вычислительных экспериментов результаты позволяются судить о достаточно высокой эффективности предлагаемого подхода для определения пауз в речевом сигнале.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Татьяна Николаевна Балабанова, Белгородский государственный национальный исследовательский университет

канд. техн. наук, доцент кафедры информационно-телекоммуникационных систем и технологий, Белгородский государственный национальный исследовательский университет

Алексей Владимирович Болдышев, Белгородский филиал ПАО «Ростелеком»

канд. техн. наук, ведущий инженер станционного участка, Белгородский филиал ПАО «Ростелеком»

Сергей Вячеславович Уманец, Белгородский филиал ПАО «Ростелеком»

ведущий инженер станционного участка, Белгородский филиал ПАО «Ростелеком»

Литература

1. Alice: a voice assistant from Yandex. Corporate block of Yandex. – URL
2. Alexa: Amazon Unveils a Listening, Talking, Music-Playing Speaker for Your Home / Bloomberg Businessweek. Bloomberg L. P. – Electron. zhurn. – URL
3. Apple – Siri – Frequently Asked Questions. Apple Inc. – URL
4. Interview with the Director of Speech Technologies LLC Vitaly Kiselev / Information Technologies in Belarus. – Electron. zhurn. – URL
5. Voice Search in Russian, Polish, Czech and Turkish. – URL
6. Bishop C. M. (1995) Neural Networks for Pattern Recognition. Oxford: Oxford University Press. 498p.
7. Ilyin V. A., Sadovnichy V. A., Sendov Bl. H. (1985 ) Mathematical analysis. Continuation of the course. Moscow : Moscow State University. 358 p.
8. Zhilyakov E. G. (2015) Optimal subband methods of analysis and synthesis of signals of finite duration. // Automation and telemechanics. No. 4; Autom. Remote Control, 76: 4.
9. Umanets S. V. (2018) Approximation of the energy fractions of a fragment of a sound signal by a mixture of radial-basis functions. Umanets // Scientific Bulletin of BelSU. Ser. Economy. Computer science. Vol. 45, No. 4, P. 698–708.
10. Ruchay A. N. (2017 ) Biometric speaker authentication in Matlab: a tutorial. Moscow : Rusays. 165 p.
11. Korotko G. F., Pokrovsky V. M. (1997) Human physiology. Study guide, Volume 2. Moscow : Medicine. 656 p.
12. Aldoshina I. A. (2012) Fundamentals of Psychoacoustics [Electronic resource] // Series of articles from the magazine “Sound engineer”. No. 1–10. URL
13. DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. URL
Опубликован
2021-12-02
Как цитировать
Балабанова, Т. Н., Болдышев, А. В., & Уманец, С. В. (2021). Применение алгоритма аппроксимации графика долей энергии для определения пауз в речевом сигнале. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (3), 106-114. https://doi.org/10.17308/sait.2021.3/3740
Раздел
Компьютерная лингвистика и обработка естественного языка