Анализ качества работы и расширение возможностей инструментов морфологического анализа текстов на русском языке

Авторы

DOI:

https://doi.org/10.17308/sait/1995-5499/2023/2/171-180

Ключевые слова:

морфологический анализ, автоматическая обработка текста, компьютерная лингвистика, инструменты анализа текста, сравнение инструментов компьютерной лингвистики, прикладная лингвистика, разработка лингвистического обеспечения

Аннотация

Увеличение количества обрабатываемой информации все больше приводит к необходимости автоматизации ее анализа и развитию соответствующих программных инструментов. Развитие автоматизированной обработки текста как самостоятельного направления на стыке информатики и лингвистики привело к разделению обработки на несколько этапов от выделения знаков — графематического этапа, до автоматического «понимания» смысла текста — семантического этапа анализа. Одним из этих этапов анализа является морфологический, на котором должны быть определены конкретные слова языка и их характеристики, что является важной частью обработки текста в целом, т. к. именно на морфологическом этапе происходит переход от «набора символов» в понимании информатики к «слову» как единице естественного языка. Качество проведения морфологического анализа сильно влияет на точность результатов обработки текста на последующих этапах. В рамках статьи было проведен сравнительный анализ существующих инструментов морфологического анализа текста для русского языка. Для этой задачи использован морфологически размеченный корпус текстов проекта «Национальный корпус русского языка». Одним из сравниваемых инструментов является JMorfSdk, разрабатываемый авторами, как один из модулей фреймворка для обработки естественного языка TAWT. На основе анализа результатов сравнения были предложены и внедрены способы устранения выявленных недостатков, которые позволяют повысить качество проведения морфологического анализа и расширить набор возможностей разрабатываемых инструментов автоматического анализа текстов на русском языке. Среди реализованных улучшений в рамках статьи представлены: автоматическое расширение словаря библиотеки, изменение внутренней структуры словаря («ёфикация», изменение правил работы с инфинитивами), а так же частичное решение проблемы омонимии на основе известных морфологических характеристик соседних слов и накопленной по корпусу текстов их статистики встречаемости.

Биографии авторов

  • Екатерина Валерьевна Полицына, Московский авиационный институт (Национальный исследовательский университет)

    канд. техн. наук, доцент, институт № 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

  • Сергей Александрович Полицын, Московский авиационный институт (Национальный исследовательский университет)

    канд. техн. наук, доцент, институт № 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

  • Александр Сергеевич Поречный, Московский авиационный институт (Национальный исследовательский университет)

    аспирант, институт № 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

  • Александр Николаевич Рыкунов, Московский авиационный институт (Национальный исследовательский университет)

    магистрант 1-го года обучения кафедры 319, институт № 3, Московский авиационный институт (Национальный исследовательский университет)

Библиографические ссылки

Загрузки

Опубликован

2023-09-29

Выпуск

Раздел

Компьютерная лингвистика и обработка естественного языка

Как цитировать

Анализ качества работы и расширение возможностей инструментов морфологического анализа текстов на русском языке. (2023). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 2, 171-180. https://doi.org/10.17308/sait/1995-5499/2023/2/171-180

Наиболее читаемые статьи этого автора (авторов)