Сжатие аудиоданных на основе психоакустических принципов восприятия звука человеком
Аннотация
В статье представлен новый метод сжатия аудиоданных с потерями. Метод базируется на психоакустических принципах восприятия звука человеком. Учет данных принципов позволяет получить метод сжатия аудиоданных различной природы: музыкальных композиций, речевого сигнала, различных звуков другого происхождения. Стоит отметить, что каждый из них имеет свои особенности. Речевые сигналы содержат паузы и имеют менее разнообразный частотный диапазон по отношению к музыке, что приводит к разработке специфических методов их компрессии. Целью построения представленной теории сжатия аудиоданных с потерями является достижение равенства исходного и восстановленного сигналов в перцептуальном смысле. Именно такой подход позволяет получить метод сжатия аудиоданных, который позволяет в значительной степени уменьшить битовое представление аудиосигнала, оставляя его на слух очень близким к оригиналу. Большое внимание при разработке метода уделено квантованию по уровню, причем при квантовании спектральных составляющих сигнала используется теория едва заметных изменений звука. Представляется целесообразным учет этой теории, поскольку она является значимой при обработке аудиосигналов, однако, до сих пор не была использована при разработке методов сжатия аудиоданных. Предлагаемая в статье процедура квантования по уровню сочетает в себе преимущества как адаптивного, так и равномерного квантования. Для адаптивного квантования основное преимущество это значительно меньшее число уровней квантования, которое необходимо для достижения сопоставимого с равномерным квантованием уровня шума квантования. Представленный метод квантования, который являясь по сути неравномерным (адаптивным) не требует передачи значения каждого из уровней квантования (или шага квантования). Кроме того, ошибка квантования в разработанном методе не превышает 1 дБ, что является порогом едваразличимых изменений звука.
Скачивания
Литература
2. Zhuravleva L. V. and Shishurin A. I. (2022) Vacuum Tubes Potential in Microelectronics. Technologies of Engineering and Information Systems. No 2. P. 67–78.
3. Kargin R. I. and Statsenko L. G. (2019) Formats of Audio Data Compression. Analysis and Comparison. Isvestiya SPbGETU LETI. (9). P. 31–37.
4. Zabolotov V and Stefanova I. (2016) Compression of Audio Data on the Basis of Psychoacoustic Properties of Hearing. Сollected Рapers XLIII International Scientific-Practical conference. No 6(41). Novosibirsk : SibAK. P. 43–51.
5. Kovalgin Yu. and Fadeev D. (2016) A Study of the Psychoacoustic Models of Codecs with Compression of the Digital Audio Data. Modern Science: actual problems of theory and practice. (7). P. 29–38.
6. Ilyushin M. V. (2019) Development of Intrusive Psychoacoustic Methods Progression of Objective Assessment of Speech Signal Transmission Quality in Wireless Communication Systems. Radio engineering, electronics and communications. Collection of reports of the V International Scientific and Technical Conference. P. 62–67. DOI
7. Cormen T., Leiserson C., Rivest R. and Stein C. (2022) Introduction to Algorithms 4th Edition. Cambridge, Massachusetts : The MIT Press. 1312 p.
8. Official page of the FLAC project. URL
9. Salomon D. (2007) Data compression: the complete reference 4th Edition. London: Springer-Verlag. 1117 p.
10. Microsoft official website (Windows Media Player). URL
11. Official website of the Xiph.Org Foundation (Vorbis I Xiph.Org Specification). URL
12. Official website of Opus Interactive Audio Codec. URL
13. Jenrungrot T., Chinen M., Kleijn W. B., Skoglund J., Borsos Z., Zeghidour N. and Tagliasacchi M. (2023) LMcodec: a Low Bitrate Speech Codec With Causal Transformer Models. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). P. 1–5.
14. Shi H., Shimada K., Hirano M., Shibuya T., Koyama Y., Zhong Z., Takahashi S., Kawahara T. and Mitsufuji Y. (2023) Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders. Proceedings of the IEEE/ACM Transactions on Audio, Speech, and Language Processing (Volume: 31). P. 2351–2364. DOI
15. Kong J., Kim J., Bae J. (2020) HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis. Proceedings of the 34th Conference on Neural Information Processing Systems (Volume: 33), Vancouver, Canada. P. 17022–17033. DOI
16. Kaneko T, Tanaka K., Kameoka H. and Seki S. (2023) Istftnet: Fast and Lightweight Mel-spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform. arXiv:2203.02395v1 [cs.SD] 4 Mar 2022. DOI
17. Subramani K., Valin J.-M., Isik U., Smaragdis P. and Krishnaswamy A. (2022) End-to-end LPCNet: A Neural Vocoder With Fully-Differentiable LPC Estimation. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. P. 818–822. DOI
18. Valin J.-M. and Skoglund J. (2019) LPCNet: Improving Neural Speech Synthesis Through Linear Prediction. Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), arXiv:1810.11846.
19. Valin J.-M., Isik U., Smaragdis P. and Krishnaswamy A. (2022) Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LPCNet. Proc. ICASSP, arxiv:2106.04129, 2022. DOI
20. Valin J.-M., Buthe J. and Mustafa A. (2023) Low-Bitrate Redundancy Coding of Speech Using a Rate-distortion-optimized Variational Autoencoder. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). P. 1–5.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).