Разработка метода обработки несловарных слов для повышения точности морфологического анализа текстов на русском языке

Авторы

DOI:

https://doi.org/10.17308/sait/1995-5499/2024/1/166-177

Ключевые слова:

морфологический анализ, несловарные слова, автоматическая обработка текста, компьютерная лингвистика, инструменты анализа текста, прикладная лингвистика

Аннотация

Необходимость автоматической обработки текстовой информации из-за постоянного увеличения ее количества привела к появлению программных продуктов для автоматизации обработки текста на естественном языке. Сложность естественного языка обусловила разделение процесса анализа текста на несколько последовательных этапов — графематического, морфологического, синтаксического и семантического. Точность обработки на каждом из этапов влияет на последующие этапы анализа текста. На морфологическом этапе анализа текста происходит определение для каждого слова морфологических характеристик. Одним из способов проведения морфологического анализа является метод с использованием словаря словоформ. Его преимуществом является высокая точность из-за хранения лексем целиком, что позволяет учитывать исключения, встречающиеся в естественном языке. Однако, сложность постоянной поддержки словаря в актуальном состоянии из-за развития языка, а также встречающиеся в текстах опечатки показывают необходимость наличия в морфологических анализаторах возможности проведения морфологического анализа несловарных слов. В рамках статьи проведен обзор существующих методов морфологического анализа несловарных слов, а также предложен собственный метод обработки неизвестных слов, учитывающий особенности словообразования в русском языке и реализованный в одном из постоянное развивающийся инструмента морфологического анализа JMorfSdk.

Биографии авторов

  • Александр Николаевич Рыкунов, Московский авиационный институт (Национальный исследовательский университет)

    магистрант 2-го года обучения кафедры 319, институт № 3, Московский авиационный институт (Национальный исследовательский университет)

  • Екатерина Валерьевна Полицына, Московский авиационный институт (Национальный исследовательский университет)

    канд. техн. наук, институт № 3, доцент кафедры 319, Московский авиационный институт (Национальный исследовательский университет)

  • Сергей Александрович Полицын, Московский авиационный институт (Национальный исследовательский университет)

    канд. техн. наук, институт № 3, доцент кафедры 319, Московский авиационный институт (Национальный исследовательский университет)

  • Александр Сергеевич Поречный, Московский авиационный институт (Национальный исследовательский университет)

    ассистент, институт № 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

Библиографические ссылки

Загрузки

Опубликован

2024-05-28

Выпуск

Раздел

Компьютерная лингвистика и обработка естественного языка

Как цитировать

Разработка метода обработки несловарных слов для повышения точности морфологического анализа текстов на русском языке. (2024). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 1, 166-177. https://doi.org/10.17308/sait/1995-5499/2024/1/166-177

Наиболее читаемые статьи этого автора (авторов)