Анализ качества работы и расширение возможностей инструментов морфологического анализа текстов на русском языке

  • Екатерина Валерьевна Полицына Московский авиационный институт (Национальный исследовательский университет) https://orcid.org/0000-0002-9313-4766
  • Сергей Александрович Полицын Московский авиационный институт (Национальный исследовательский университет) https://orcid.org/0000-0002-0744-6035
  • Александр Сергеевич Поречный Московский авиационный институт (Национальный исследовательский университет) https://orcid.org/0000-0003-2280-7406
  • Александр Николаевич Рыкунов Московский авиационный институт (Национальный исследовательский университет) https://orcid.org/0000-0001-7152-2824
Ключевые слова: морфологический анализ, автоматическая обработка текста, компьютерная лингвистика, инструменты анализа текста, сравнение инструментов компьютерной лингвистики, прикладная лингвистика, разработка лингвистического обеспечения

Аннотация

Увеличение количества обрабатываемой информации все больше приводит к необходимости автоматизации ее анализа и развитию соответствующих программных инструментов. Развитие автоматизированной обработки текста как самостоятельного направления на стыке информатики и лингвистики привело к разделению обработки на несколько этапов от выделения знаков — графематического этапа, до автоматического «понимания» смысла текста — семантического этапа анализа. Одним из этих этапов анализа является морфологический, на котором должны быть определены конкретные слова языка и их характеристики, что является важной частью обработки текста в целом, т. к. именно на морфологическом этапе происходит переход от «набора символов» в понимании информатики к «слову» как единице естественного языка. Качество проведения морфологического анализа сильно влияет на точность результатов обработки текста на последующих этапах. В рамках статьи было проведен сравнительный анализ существующих инструментов морфологического анализа текста для русского языка. Для этой задачи использован морфологически размеченный корпус текстов проекта «Национальный корпус русского языка». Одним из сравниваемых инструментов является JMorfSdk, разрабатываемый авторами, как один из модулей фреймворка для обработки естественного языка TAWT. На основе анализа результатов сравнения были предложены и внедрены способы устранения выявленных недостатков, которые позволяют повысить качество проведения морфологического анализа и расширить набор возможностей разрабатываемых инструментов автоматического анализа текстов на русском языке. Среди реализованных улучшений в рамках статьи представлены: автоматическое расширение словаря библиотеки, изменение внутренней структуры словаря («ёфикация», изменение правил работы с инфинитивами), а так же частичное решение проблемы омонимии на основе известных морфологических характеристик соседних слов и накопленной по корпусу текстов их статистики встречаемости.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Екатерина Валерьевна Полицына, Московский авиационный институт (Национальный исследовательский университет)

канд. техн. наук, доцент, институт № 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

Сергей Александрович Полицын, Московский авиационный институт (Национальный исследовательский университет)

канд. техн. наук, доцент, институт № 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

Александр Сергеевич Поречный, Московский авиационный институт (Национальный исследовательский университет)

аспирант, институт № 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

Александр Николаевич Рыкунов, Московский авиационный институт (Национальный исследовательский университет)

магистрант 1-го года обучения кафедры 319, институт № 3, Московский авиационный институт (Национальный исследовательский университет)

Литература

1. Gubin M. V. and Morozov A. B. (2006) Vliyanie morfologicheskogo analiza na kachestvo informacionnogo poiska [Impact of the morphological analysis on the data search quality] Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollekcii. P. 95–100. (in Russian)
2. Yadav N. (2017) Applications Associated With Morphological Analysis And Generation In Natural Language Processing. International Journal of Scientific & Technology Research. 6. P. 284–286.
3. Politsyna E. V., Politsyn S. A. and Porechny A. S. (2021) Solving practical tasks of computer linguistics using the created text processing framework. Journal of Physics: Conference Series. 1902 012129 DOI
4. Gatiyatulina G. M. and Bereznikov D. (2017) Osnovnye etapy stanovleniya korpusnoj lingvistiki [Main stages of corpora lingvistics development] Informacionnye tekhnologii v issledovatelskom prostranstve raznostrukturnyh yazykov. P. 18–20. (in Russian)
5. Gaineva I. F. (2007) Ob ispolzovanii korpusov v lingvisticheskih issledovaniyah [Using text corpora for linguistic research] Vestnik Bashkirskogo universiteta. 12. Vol. 4. P. 104–106.
6. Politsyn S. A. and Politsyna E. V. (2018) Primenenie korpusa tekstov dlya avtomaticheskoj klassifikacii v komplekse instrumentov avtomatizirovannogo analiza tekstov [Using text corpora for automatic classification in the automated text processing toolset] Vestink VGU. Sistemniy analiz. 2. P. 162–167 (in Russian). DOI
7. Zesch T., Müller C. and Gurevych I. (2008) Using Wiktionary for Computing Semantic Relatedness. Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence.
8. P. 861–866. 8. Navarro E. [et al.] (2009) Wiktionary and NLP: Improving synonymy networks. ACL Workshop on The People’s Web Meets NLP: Collaboratively Constructed Semantic Resources. P. 19–27. DOI
9. Rysakov S. V. and Klyshinsky E. S. (2015) Statisticheskie metody snyatiya omonimii [Statistic methods of homonymy resolving]. Novye informacionnye tekhnologii v avtomatizirovannyh sistemah. 18. P. 555–563. (in Russian)
Опубликован
2023-09-29
Как цитировать
Полицына, Е. В., Полицын, С. А., Поречный, А. С., & Рыкунов, А. Н. (2023). Анализ качества работы и расширение возможностей инструментов морфологического анализа текстов на русском языке. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (2), 171-180. https://doi.org/10.17308/sait/1995-5499/2023/2/171-180
Раздел
Компьютерная лингвистика и обработка естественного языка

Наиболее читаемые статьи этого автора (авторов)