Создание инструмента семантико-синтаксического анализа текстов на русском языке

  • Александр Сергеевич Поречный Московский авиационный институт (национальный исследовательский университет) https://orcid.org/0000-0003-2280-7406
Ключевые слова: обработка естественного языка, синтаксический анализ, семантический анализ, семантико-синтаксический анализ, фильтр устранения неоднозначности, опорные слова, опорные обороты

Аннотация

Обработку естественного языка можно разбить на несколько этапов, однако, если рассматривать их отдельно друг от друга, то возникают сложности в анализе, которые могут быть разрешены только на последующем этапе. Особенно это очевидно на синтаксическом этапе, где установка верных связей между словами зависит от «смысла» текст, т. е. от семантики. Поэтому предлагается объединить синтаксический и семантический этапы анализа текста в семантико-синтаксический. Семантико-синтаксический анализ позволяет учитывать семантику уже на уровне синтаксического анализа, что дает возможность добиться уменьшения неоднозначности в тексте и повысить качество анализа. Для реализации алгоритма предлагаемого этапа анализа выделены правила установления связей между словами, а также разработаны алгоритмы устранения неоднозначности слова и поиска связей слов в пределах опорного оборота и предложения. Также приведены результаты апробации реализованного инструмента семантико-синтаксического анализа.

Скачивания

Данные скачивания пока не доступны.

Биография автора

Александр Сергеевич Поречный, Московский авиационный институт (национальный исследовательский университет)

аспирант кафедры 319 Московского авиационного института (национального исследовательского университета)

Литература

1. Bender E. M. Linguistic Fundamentals for Nat-ural Language Processing II: 100 Essen-tials from Semantics and Pragmatics. Synthesis Lectures on Human Lan-guage Tech-nologies. London: Morgan & Clay-pool, 2019. 268 p. DOI
2. Khoroshilov A. A. Methods for auto-matically establishing the semantic proximity of documents based on their conceptual analysis. Trudy 15-j Vserossijskoj nauchnoj konferencii «Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollekcii». Russian, Ya-roslavl, 2013. pp. С. 20–28. (in Russian)
3. Newport E. L. Statistical language learning: computational, maturational, and lin-guistic constraints. Language and Cogni-tion. 2016. No 8. Pp. 447 461. DOI
4. Bolshakova E. I., Vorontsov K. V., Efremova N. E., Klyshinsky E. S., Lukashevich N. V., Sapin A. S. Automatic processing of texts in a natural language and data analysis: textbook. Russia, Moscow, 2017, 269 p. (in Russian)
5. Porter M. An algorithm for suffix stripping. Readings in Information Retrieval. San Francisco, CA, 1997: Morgan Kaufmann Publishers. 1997. 313–316 p.
6. Official site of Snowball. Available at URL (accessed 21.12.2019).
7. Official site of Automatic Text Pro-cessing. Available at URL (accessed 21.12.2019).
8. Official site of Greeb. Available at URL (accessed 21.12.2019).
9. Official site of NLTK. Available at URL (accessed 21.12.2019).
10. Official site of Solarix. Available at URL (accessed 21.12.2019).
11. Politsyna E. V. Development of the Cross-platform Library of Morphological Analysis of the Russian Language Text for Industrial Software. CEE-SECR ‘18 Central and Eastern European Software Engineering Conference Russia Moscow, Russian Federation, October 12–13, 2018. ACM New York, NY, USA, 2018. DOI
12. Official site of JMorfSdk. Available at URL (accessed 21.12.2019).
13. Official site of FreeLingю. Available at URL (accessed 21.12.2019).
14. Official site of MAnalyzer. Available at URL (accessed 21.12.2019).
15. Official site of RussianMorphology. Available at URL (accessed 21.12.2019).
16. Official site of ABBYY. Available at URL (accessed 21.12.2019).
17. Official site of GATE – General archi-tecture for text engineering. Available at URL (accessed 21.12.2019).
18. Rakov V. I. System analysis (initial concepts): textbook. allowance. Russia, Moscow, 2012, 239 p. (in Russian)
19. Belonogov G. G. Theoretical problems of computer science. Volume 2. Semantic problems of computer science. KOS INF Plekhanov Russian University of Economics, 2008, 223 p. (in Russian).
20. Gildea D. Ordered Tree Decomposition for HRG Rule Extraction. Computational Linguistics. 2019. V. 45, No 2. Pp. 339–379. DOI
21. Bach E., Harms R. T. The Case for Case. Universals in Linguistic Theory. 1968. 88 p.
22. Popov E. V. Communication with computers in a natural language. Russia, Moscow, 1982, 360 p. (in Russian)
23. Evdokimova, E. S. Natural language systems. Lecture course. Russia, Ulan-Ude, 2006. 92 p. (in Russian)
24. Bacon F. New Organon; [trans. English S. Krasilshchikova; will enter. Art. B. Sublimates]. Russia, Moscow, 2019. 364 p.
25. Tripodi R., Pelillo M. A Game-Theoretic Ap-proach to Word Sense Disambiguation. Computational Linguistics. 2014. V. 43, No 1. Pp. 31–70. DOI
26. Tsvetkov Y., Wintner S. Identification of Multi-word Expressions by Combining Multiple Linguistic Information Sources. Computational Linguistics. 2014. V. 40, No 2. Pp. 449–468. DOI
27. Belonogov G. G., Zelenkov Y. G., Kuznetsov B. A., Novoselov A. P., Khoroshilov A. A., Khoroshilov A. A. Automation of collecting and maintaining dictionaries for systems of phraseological computer translation of texts from Russian into English and from Eng-lish to Russian. Nauchno-tehnicheskaja informacija, 1993. vol. 2. No.12. pp. 16-21. (in Russian).
28. Belonogov G. G., Zelenkov Ju. G., Kuznecov B. A., Novoselov A. P., Pashhenko N. A., Horoshilov A. A., Horoshilov A. A. An interactive system of Russian-English and English-Russian machine translation of polythematic scientific and technical texts. Nauchno-tehnicheskaja informacija, 1993. V. 2, No.3. Pp. 20–27. (in Russian).
29. Politsyna E. V., Politsyn S. A., Porechny A. S. The Framework for Hypothesis Verification and Analysis of Natural Language Processing for the Russian Language. Supplementary Proceedings of the Seventh International Conference on Analysis of Images, Social Networks and Texts (AIST-SUP 2018), Moscow, Russia, July 5–7, 2018. CEUR Work-Shop Proceedings, Aachen, Germany, 2018. v. 2268. Pp. 25–33.
30. Official site of framework TAWT. Available at URL (accessed 21.12.2019).
31. Hellan L., Malchukov A., Cennamo M. Contrastive Studies in Ver-bal Valency. Linguistik Aktuell/Linguistics Today. Amsterdam: John Benjamins Publishing Company, 2017. 484 p. DOI
Опубликован
2020-03-24
Как цитировать
Поречный, А. С. (2020). Создание инструмента семантико-синтаксического анализа текстов на русском языке. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 154-167. https://doi.org/10.17308/sait.2020.1/2630
Раздел
Компьютерная лингвистика и обработка естественного языка