Разработка метода обработки несловарных слов для повышения точности морфологического анализа текстов на русском языке

  • Александр Николаевич Рыкунов Московский авиационный институт (Национальный исследовательский университет) https://orcid.org/0000-0001-7152-2824
  • Екатерина Валерьевна Полицына Московский авиационный институт (Национальный исследовательский университет) https://orcid.org/0000-0002-9313-4766
  • Сергей Александрович Полицын Московский авиационный институт (Национальный исследовательский университет) https://orcid.org/0000-0002-0744-6035
  • Александр Сергеевич Поречный Московский авиационный институт (Национальный исследовательский университет) https://orcid.org/0000-0003-2280-7406
Ключевые слова: морфологический анализ, несловарные слова, автоматическая обработка текста, компьютерная лингвистика, инструменты анализа текста, прикладная лингвистика

Аннотация

Необходимость автоматической обработки текстовой информации из-за постоянного увеличения ее количества привела к появлению программных продуктов для автоматизации обработки текста на естественном языке. Сложность естественного языка обусловила разделение процесса анализа текста на несколько последовательных этапов — графематического, морфологического, синтаксического и семантического. Точность обработки на каждом из этапов влияет на последующие этапы анализа текста. На морфологическом этапе анализа текста происходит определение для каждого слова морфологических характеристик. Одним из способов проведения морфологического анализа является метод с использованием словаря словоформ. Его преимуществом является высокая точность из-за хранения лексем целиком, что позволяет учитывать исключения, встречающиеся в естественном языке. Однако, сложность постоянной поддержки словаря в актуальном состоянии из-за развития языка, а также встречающиеся в текстах опечатки показывают необходимость наличия в морфологических анализаторах возможности проведения морфологического анализа несловарных слов. В рамках статьи проведен обзор существующих методов морфологического анализа несловарных слов, а также предложен собственный метод обработки неизвестных слов, учитывающий особенности словообразования в русском языке и реализованный в одном из постоянное развивающийся инструмента морфологического анализа JMorfSdk.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Александр Николаевич Рыкунов, Московский авиационный институт (Национальный исследовательский университет)

магистрант 2-го года обучения кафедры 319, институт № 3, Московский авиационный институт (Национальный исследовательский университет)

Екатерина Валерьевна Полицына, Московский авиационный институт (Национальный исследовательский университет)

канд. техн. наук, институт № 3, доцент кафедры 319, Московский авиационный институт (Национальный исследовательский университет)

Сергей Александрович Полицын, Московский авиационный институт (Национальный исследовательский университет)

канд. техн. наук, институт № 3, доцент кафедры 319, Московский авиационный институт (Национальный исследовательский университет)

Александр Сергеевич Поречный, Московский авиационный институт (Национальный исследовательский университет)

ассистент, институт № 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

Литература

1. Steine P. and Ruppenhofe J. (2018) Building a Morphological Treebank for German from a Linguistic Database Proceedings of the eleventh international conference on language resources and evaluation (LREC 2018). P. 3882–3889.
2. Kazak M. Y. (1999) Chasterechnyye struktury slovoobrazovatel’nykh gnezd s iskhodnym glagolom [Partial structures of word-formation nests with the original verb]. Yedinstvo sistemnogo i funktsional’nogo analiza yazykovykh yedinits. 4. P. 195–198. (in Russian)
3. Politsyna E. V., Politsyn S. A. and Porechny A. S. (2021) Solving practical tasks of computer linguistics using the created text processing framework Journal of Physics: Conference Series. 1902 012129 DOI
4. Rysakov S. V. and Klyshinsky E. S. (2015) Statisticheskie metody snyatiya omonimii [Statistic methods of homonymy resolving]. Novye informacionnye tekhnologii v avtomatizirovannyh sistemah. 18. P. 555–563. (in Russian)
5. Gatiyatulina G. M. and Bereznikov D. V. (2017) Osnovnye etapy stanovleniya korpusnoj lingvistiki [Main stages of corpora lingvistics development]. Informacionnye tekhnologii v issledovatelskom prostranstve raznostrukturnyh yazykov. P. 18–20. (in Russian)
6. Gaineva I. F. (2007) Ob ispolzovanii korpusov v lingvisticheskih issledovaniyah [Using text corpora for linguistic research]. Vestnik Bashkirskogo universiteta. 4 (12). P. 104–106. (in Russian)
7. Russian National Corpus. Available from: https://ruscorpora.ru" target="_blank">URL
8. Rykunov A. N., Politsyna E. V., Politsyn S. A. and Porechny A. S. (2022) Issledovaniye instrumentov morfologicheskogo analiza tekstov na russkom yazyke dlya povysheniya tochnosti algoritmov obrabotki v biblioteke JMorfSdk [Study of tools for morphological analysis of Russian texts to improve the accuracy of processing algorithms in the JMorfSdk library]. Informatika: problemy, metody, tekhnologii. P. 1204–1212. (in Russian)
9. Tapsai C. and Rakbumrung W. Solving unknown word problems in natural language processing International academic multidisciplinary research conference in Amsterdam 2019. P. 204– 207.
10. Kazak M. Y. (2012) Morfemika i slovoobrazovaniye sovremennogo russkogo yazyka. Teoriya [Morphemics and word formation of the modern Russian language. Theory]. Belgorod, Belgorod publ. (in Russian)
11. Bol’shakova E. I., Vorontsov K. V., Efremova N. E. and Klyshinsky E. S. (2017) Avtomaticheskaya obrabotka tekstov na yestestvennom yazyke i analiz dannykh [Automatic natural language processing and data analysis]. Moscow, NRU HSE. (in Russian)
12. Rodina I. V. (2017) Russkoye pis’mo na osnove grammatiki [Russian writing based on grammar]. Yekaterinburg, Ural University publ. (in Russian)
13. Khertek L. K. (2018) Morfemika i slovoobrazovaniye russkogo yazyka [Morphemics and word formation of the Russian language]. Kyzyl, Tuva State University publ. (in Russian)
14. Asiryan A. K. (2017) Sravneniye instrumentov morfologicheskoy razmetki [Morphological tagging tools comparison]. Nauchnyy vzglyad v budushcheye. 7. P. 27–34. (in Russian) DOI
15. Grigoryan A. A. (2009) Sposoby obrazovaniya terminov gruppy «dokumentovedeniye» [Ways of formation of the terms of the “document science” group]. Rusistika. 4. P. 33–38.
16. AoT. Available from: DOI
18. RussianMorphology. Available from: DOI
Опубликован
2024-05-28
Как цитировать
Рыкунов, А. Н., Полицына, Е. В., Полицын, С. А., & Поречный, А. С. (2024). Разработка метода обработки несловарных слов для повышения точности морфологического анализа текстов на русском языке. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 166-177. https://doi.org/10.17308/sait/1995-5499/2024/1/166-177
Раздел
Компьютерная лингвистика и обработка естественного языка

Наиболее читаемые статьи этого автора (авторов)