Анализ качества работы и расширение возможностей инструментов морфологического анализа текстов на русском языке
Аннотация
Увеличение количества обрабатываемой информации все больше приводит к необходимости автоматизации ее анализа и развитию соответствующих программных инструментов. Развитие автоматизированной обработки текста как самостоятельного направления на стыке информатики и лингвистики привело к разделению обработки на несколько этапов от выделения знаков — графематического этапа, до автоматического «понимания» смысла текста — семантического этапа анализа. Одним из этих этапов анализа является морфологический, на котором должны быть определены конкретные слова языка и их характеристики, что является важной частью обработки текста в целом, т. к. именно на морфологическом этапе происходит переход от «набора символов» в понимании информатики к «слову» как единице естественного языка. Качество проведения морфологического анализа сильно влияет на точность результатов обработки текста на последующих этапах. В рамках статьи было проведен сравнительный анализ существующих инструментов морфологического анализа текста для русского языка. Для этой задачи использован морфологически размеченный корпус текстов проекта «Национальный корпус русского языка». Одним из сравниваемых инструментов является JMorfSdk, разрабатываемый авторами, как один из модулей фреймворка для обработки естественного языка TAWT. На основе анализа результатов сравнения были предложены и внедрены способы устранения выявленных недостатков, которые позволяют повысить качество проведения морфологического анализа и расширить набор возможностей разрабатываемых инструментов автоматического анализа текстов на русском языке. Среди реализованных улучшений в рамках статьи представлены: автоматическое расширение словаря библиотеки, изменение внутренней структуры словаря («ёфикация», изменение правил работы с инфинитивами), а так же частичное решение проблемы омонимии на основе известных морфологических характеристик соседних слов и накопленной по корпусу текстов их статистики встречаемости.
Скачивания
Литература
2. Yadav N. (2017) Applications Associated With Morphological Analysis And Generation In Natural Language Processing. International Journal of Scientific & Technology Research. 6. P. 284–286.
3. Politsyna E. V., Politsyn S. A. and Porechny A. S. (2021) Solving practical tasks of computer linguistics using the created text processing framework. Journal of Physics: Conference Series. 1902 012129 DOI
4. Gatiyatulina G. M. and Bereznikov D. (2017) Osnovnye etapy stanovleniya korpusnoj lingvistiki [Main stages of corpora lingvistics development] Informacionnye tekhnologii v issledovatelskom prostranstve raznostrukturnyh yazykov. P. 18–20. (in Russian)
5. Gaineva I. F. (2007) Ob ispolzovanii korpusov v lingvisticheskih issledovaniyah [Using text corpora for linguistic research] Vestnik Bashkirskogo universiteta. 12. Vol. 4. P. 104–106.
6. Politsyn S. A. and Politsyna E. V. (2018) Primenenie korpusa tekstov dlya avtomaticheskoj klassifikacii v komplekse instrumentov avtomatizirovannogo analiza tekstov [Using text corpora for automatic classification in the automated text processing toolset] Vestink VGU. Sistemniy analiz. 2. P. 162–167 (in Russian). DOI
7. Zesch T., Müller C. and Gurevych I. (2008) Using Wiktionary for Computing Semantic Relatedness. Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence.
8. P. 861–866. 8. Navarro E. [et al.] (2009) Wiktionary and NLP: Improving synonymy networks. ACL Workshop on The People’s Web Meets NLP: Collaboratively Constructed Semantic Resources. P. 19–27. DOI
9. Rysakov S. V. and Klyshinsky E. S. (2015) Statisticheskie metody snyatiya omonimii [Statistic methods of homonymy resolving]. Novye informacionnye tekhnologii v avtomatizirovannyh sistemah. 18. P. 555–563. (in Russian)
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).