Исследование признакового пространства для описания отрезков речевых сигналов в задачах распознавания устной речи
Аннотация
В данной работе рассматривается набор признаков для описания отрезков речевых сигналов с точки зрения их информативности. Наборы признаков используются в задачах распознавания. От информативности набора признаков во многом зависит успех решения задач распознавания. Информативность набора признаков оценивается с помощью информационной энтропии. В данной работе производится сравнение информационной энтропии для наборов признаков, полученных с помощью метода Фурье и субполосного метода. Также рассматриваются модификации этих методов для анализа речевых сигналов, а именно переход к мел шкале. Кроме мел шкалы, для субполосного метода рассматриваются и другие искажения частотной оси. В работе приводятся результаты вычисления информационной энтропии для разных способов получения набора признаков, описывающих отрезки речевых сигналов. В результате делается вывод о повышении информативности набора признаков при использовании субполосного метода с нелинейным разбиением частотной оси на полосы анализа.
Скачивания
Литература
2. Zhilyakov E. G., Boldyshev A. V., Trubitsyna D. I., Prokhorenko E. I. On the use of subband analysis and synthesis of signals in the field of determining the cosine transform when solving problems of compression of speech signals // Scientific Bulletin of Belgorod State University Economics, Informatics. 2019. V. 46. No 4(44). P. 700–710.
3. Shannon C. E. A mathematical theory of communication // Bell System Technical Journal. 1948. (27) P. 379–423, 623–656.
4. Zhilyakov E. G. Optimal sub-band methods for analysis and synthesis of finite-duration signals // Automation and Remote Control. 2015. No 4. P. 51–66. DOI
5. Sergienko A. B. Cifrovaya obrabotka signalov [Digital signal processing] St. Petersburg : Piter publ, 2005 (in Russian).
6. Il’in V. A., Sadovnichiy V. A., Sendov B. H. Matematicheskiy analiz. Prodolzenie kursa [Mathematical analysis. Continuation of the course]. Moscow : MSU publ. 1985 (in Russian).
7. Ruchai A. N. Biometricheskaya autentifikatsiya dictora v Matlab: uchebnoe posobie [Biometric Speaker Authentication in Matlab: A Tutorial] Moscow : Rusains publ. 2017 (in Russian).
8. Tsviker E., Feldkeller E. Ukho kak priemnik informatsii [The ear as a receiver of information] Moscow : Svyaz publ. 1971.
9. Aldoshina I. A. Basics of psychoacoustics. Book archive Klex.ru. 2018. Available at: URL
10. Vologdin E. I. Slukh i vospriyatie zvuka: uchebnoe posobie [Hearing and Sound Perception: A Study Guide] St. Petersburg : Facultet DVO publ. 2004 (in Russian)
11. Burtsev N. N. About full scale note frequencies Oberton Pro forum. 2011. Available at: URL
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).