Применение алгоритма аппроксимации графика долей энергии для определения пауз в речевом сигнале
Аннотация
В данной работе рассматривается речевой сигнал как набор фрагментов, содержащих речевые компоненты и фрагменты с шумами, соответствующие паузам между словами. Ставится задача по составлению решающей функции, способной принять или отвергнуть гипотезу об отсутствии речи в отрезке речевого сигнала. На основе субполосного метода для отрезка речевого сигнала составляется его распределение энергий по частотам. Для этого распределения в дальнейшем применяется процедура аппроксимации смесью радиально-базисными функциями (функциями Гаусса). Смесь представляет собой взвешенную сумму радиально-базисных функций и равномерно-распределённой составляющей. По соотношению максимальных значений компонент смеси составляется решающее правило. Для проведения вычислительного эксперимента вводится нелинейность «зона нечувствительности», выбор которой обусловлен особенностями электрической активности путей и центров слуховой системы. В работе приводится результат применения алгоритма определения пауз в речевом сигнале. В качестве рабочего материала использовалась база размеченных речевых фрагментов американского агентства передовых оборонных исследовательских проектов DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. Всего было обработано 100 звукозаписей, размер отрезка анализа был взят 9 миллисекунд, частота дискретизации 16000Гц. Для проверки работоспособности предлагаемого алгоритма были оценены ошибки первого рода «пропуск цели» — когда алгоритм не начал отмечать паузу, но такая отметка присутствует при ручной расстановке, а также ошибки второго рода «ложная тревога» — когда произошла ошибочная постановка паузы. Полученные в ходе вычислительных экспериментов результаты позволяются судить о достаточно высокой эффективности предлагаемого подхода для определения пауз в речевом сигнале.
Скачивания
Литература
2. Alexa: Amazon Unveils a Listening, Talking, Music-Playing Speaker for Your Home / Bloomberg Businessweek. Bloomberg L. P. – Electron. zhurn. – URL
3. Apple – Siri – Frequently Asked Questions. Apple Inc. – URL
4. Interview with the Director of Speech Technologies LLC Vitaly Kiselev / Information Technologies in Belarus. – Electron. zhurn. – URL
5. Voice Search in Russian, Polish, Czech and Turkish. – URL
6. Bishop C. M. (1995) Neural Networks for Pattern Recognition. Oxford: Oxford University Press. 498p.
7. Ilyin V. A., Sadovnichy V. A., Sendov Bl. H. (1985 ) Mathematical analysis. Continuation of the course. Moscow : Moscow State University. 358 p.
8. Zhilyakov E. G. (2015) Optimal subband methods of analysis and synthesis of signals of finite duration. // Automation and telemechanics. No. 4; Autom. Remote Control, 76: 4.
9. Umanets S. V. (2018) Approximation of the energy fractions of a fragment of a sound signal by a mixture of radial-basis functions. Umanets // Scientific Bulletin of BelSU. Ser. Economy. Computer science. Vol. 45, No. 4, P. 698–708.
10. Ruchay A. N. (2017 ) Biometric speaker authentication in Matlab: a tutorial. Moscow : Rusays. 165 p.
11. Korotko G. F., Pokrovsky V. M. (1997) Human physiology. Study guide, Volume 2. Moscow : Medicine. 656 p.
12. Aldoshina I. A. (2012) Fundamentals of Psychoacoustics [Electronic resource] // Series of articles from the magazine “Sound engineer”. No. 1–10. URL
13. DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. URL
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).