Анализ качества работы и расширение возможностей инструментов морфологического анализа текстов на русском языке
DOI:
https://doi.org/10.17308/sait/1995-5499/2023/2/171-180Ключевые слова:
морфологический анализ, автоматическая обработка текста, компьютерная лингвистика, инструменты анализа текста, сравнение инструментов компьютерной лингвистики, прикладная лингвистика, разработка лингвистического обеспеченияАннотация
Увеличение количества обрабатываемой информации все больше приводит к необходимости автоматизации ее анализа и развитию соответствующих программных инструментов. Развитие автоматизированной обработки текста как самостоятельного направления на стыке информатики и лингвистики привело к разделению обработки на несколько этапов от выделения знаков — графематического этапа, до автоматического «понимания» смысла текста — семантического этапа анализа. Одним из этих этапов анализа является морфологический, на котором должны быть определены конкретные слова языка и их характеристики, что является важной частью обработки текста в целом, т. к. именно на морфологическом этапе происходит переход от «набора символов» в понимании информатики к «слову» как единице естественного языка. Качество проведения морфологического анализа сильно влияет на точность результатов обработки текста на последующих этапах. В рамках статьи было проведен сравнительный анализ существующих инструментов морфологического анализа текста для русского языка. Для этой задачи использован морфологически размеченный корпус текстов проекта «Национальный корпус русского языка». Одним из сравниваемых инструментов является JMorfSdk, разрабатываемый авторами, как один из модулей фреймворка для обработки естественного языка TAWT. На основе анализа результатов сравнения были предложены и внедрены способы устранения выявленных недостатков, которые позволяют повысить качество проведения морфологического анализа и расширить набор возможностей разрабатываемых инструментов автоматического анализа текстов на русском языке. Среди реализованных улучшений в рамках статьи представлены: автоматическое расширение словаря библиотеки, изменение внутренней структуры словаря («ёфикация», изменение правил работы с инфинитивами), а так же частичное решение проблемы омонимии на основе известных морфологических характеристик соседних слов и накопленной по корпусу текстов их статистики встречаемости.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













