Создание голосового ассистента с использованием технологий нейронных сетей
Аннотация
В статье исследуется разработка голосового ассистента с применением технологий нейронных сетей. Основная цель работы заключается в демонстрации возможности использования нейросетевых решений для создания эффективных программ голосовых помощников. В процессе исследования создана программа на языке Python, которая была протестирована на предмет быстродействия и точности. Программа способна выполнять широкий спектр задач, включая персонализацию команд, создание сложных алгоритмов, интеграцию с системами «Умный дом» и обеспечение высокого уровня конфиденциальности через локальную обработку данных. Проблема интерпретации команд решается применением алгоритма нечёткого сравнения. Реализованы алгоритмы нахождения расстояния Левенштейна и Дамерау — Левенштейна, а также сходства Джаро — Винклера для точного распознавания голосовых запросов. Сопоставляется их эффективность с точки зрения точности работы и оптимизации. Описан интерфейс программы, созданный с использованием библиотеки CustomTkinter,а также представлен общий принцип работы голосового ассистента. Применены библиотеки VOSK и Silero TTS на основе нейронных сетей в ключевых элементах программы — голосовой ввод и синтез речи. Составлена статистика использования программы и проведена оценка быстродействия и точности работы её ключевых компонентов, сделаны выводы о перспективах использования решения на основе нейронных сетей в разработке приложений.
Скачивания
Литература
2. Leshchenko A. V. (2018) Review and practical application of fuzzy search algorithms. Collection of scientific papers of NSTU. 93. P. 59–69. (in Russian)
3. Finding fuzzy matches: comparing records by line spacing. URL
4. Wagner R. A. and Fischer M. J. (2024) The String-to-String Correction Problem. DOI
5. Damerau – Levenshtein Edit Distance Explained. URL
6. Jaro distance. URL
7. Winkler W. E. (1990) String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. Proceedings of the Section on Survey Research Methods. American Statistical Association. P. 354–359.
8. The Jaro – Winkler similarity. Fuzzy string comparison. URL
9. Code Spelunking: Jaro – Winkler String Compari-son. URL
10. Navarro G. (2001) A guided tour to approxi-mate string matching. ACM Comput. Surv. 33. P. 31–88.
11. Brinardi L. and Seng H. (2017) Text Documents Plagiarism Detection using RabinKarpand Jaro – Winkler Distance Algorithms. Indonesian Journal of Electrical Engineering and Computer Science. 5. URL
12. How speech recognition systems work. URL
13. Zlatopolsky D. M. (2017) Fundamentals of programming in Python. Moscow : DMK Press, 284.
14. Fedorov D. Yu. (2019) Programming in the high-level Python language : a textbook for applied bachelor’s degree. Moscow : Yurait Publishing House, 161.
15. Sheludko V. M. (2017) The high-level programming language Python. Functions, data structures, additional modules: tutorial. Rostov-on-Don, Taganrog : Publishing House of the Southern Federal University, 107.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













