Разработка метода обработки несловарных слов для повышения точности морфологического анализа текстов на русском языке
Аннотация
Необходимость автоматической обработки текстовой информации из-за постоянного увеличения ее количества привела к появлению программных продуктов для автоматизации обработки текста на естественном языке. Сложность естественного языка обусловила разделение процесса анализа текста на несколько последовательных этапов — графематического, морфологического, синтаксического и семантического. Точность обработки на каждом из этапов влияет на последующие этапы анализа текста. На морфологическом этапе анализа текста происходит определение для каждого слова морфологических характеристик. Одним из способов проведения морфологического анализа является метод с использованием словаря словоформ. Его преимуществом является высокая точность из-за хранения лексем целиком, что позволяет учитывать исключения, встречающиеся в естественном языке. Однако, сложность постоянной поддержки словаря в актуальном состоянии из-за развития языка, а также встречающиеся в текстах опечатки показывают необходимость наличия в морфологических анализаторах возможности проведения морфологического анализа несловарных слов. В рамках статьи проведен обзор существующих методов морфологического анализа несловарных слов, а также предложен собственный метод обработки неизвестных слов, учитывающий особенности словообразования в русском языке и реализованный в одном из постоянное развивающийся инструмента морфологического анализа JMorfSdk.
Скачивания
Литература
2. Kazak M. Y. (1999) Chasterechnyye struktury slovoobrazovatel’nykh gnezd s iskhodnym glagolom [Partial structures of word-formation nests with the original verb]. Yedinstvo sistemnogo i funktsional’nogo analiza yazykovykh yedinits. 4. P. 195–198. (in Russian)
3. Politsyna E. V., Politsyn S. A. and Porechny A. S. (2021) Solving practical tasks of computer linguistics using the created text processing framework Journal of Physics: Conference Series. 1902 012129 DOI
4. Rysakov S. V. and Klyshinsky E. S. (2015) Statisticheskie metody snyatiya omonimii [Statistic methods of homonymy resolving]. Novye informacionnye tekhnologii v avtomatizirovannyh sistemah. 18. P. 555–563. (in Russian)
5. Gatiyatulina G. M. and Bereznikov D. V. (2017) Osnovnye etapy stanovleniya korpusnoj lingvistiki [Main stages of corpora lingvistics development]. Informacionnye tekhnologii v issledovatelskom prostranstve raznostrukturnyh yazykov. P. 18–20. (in Russian)
6. Gaineva I. F. (2007) Ob ispolzovanii korpusov v lingvisticheskih issledovaniyah [Using text corpora for linguistic research]. Vestnik Bashkirskogo universiteta. 4 (12). P. 104–106. (in Russian)
7. Russian National Corpus. Available from: https://ruscorpora.ru" target="_blank">URL
8. Rykunov A. N., Politsyna E. V., Politsyn S. A. and Porechny A. S. (2022) Issledovaniye instrumentov morfologicheskogo analiza tekstov na russkom yazyke dlya povysheniya tochnosti algoritmov obrabotki v biblioteke JMorfSdk [Study of tools for morphological analysis of Russian texts to improve the accuracy of processing algorithms in the JMorfSdk library]. Informatika: problemy, metody, tekhnologii. P. 1204–1212. (in Russian)
9. Tapsai C. and Rakbumrung W. Solving unknown word problems in natural language processing International academic multidisciplinary research conference in Amsterdam 2019. P. 204– 207.
10. Kazak M. Y. (2012) Morfemika i slovoobrazovaniye sovremennogo russkogo yazyka. Teoriya [Morphemics and word formation of the modern Russian language. Theory]. Belgorod, Belgorod publ. (in Russian)
11. Bol’shakova E. I., Vorontsov K. V., Efremova N. E. and Klyshinsky E. S. (2017) Avtomaticheskaya obrabotka tekstov na yestestvennom yazyke i analiz dannykh [Automatic natural language processing and data analysis]. Moscow, NRU HSE. (in Russian)
12. Rodina I. V. (2017) Russkoye pis’mo na osnove grammatiki [Russian writing based on grammar]. Yekaterinburg, Ural University publ. (in Russian)
13. Khertek L. K. (2018) Morfemika i slovoobrazovaniye russkogo yazyka [Morphemics and word formation of the Russian language]. Kyzyl, Tuva State University publ. (in Russian)
14. Asiryan A. K. (2017) Sravneniye instrumentov morfologicheskoy razmetki [Morphological tagging tools comparison]. Nauchnyy vzglyad v budushcheye. 7. P. 27–34. (in Russian) DOI
15. Grigoryan A. A. (2009) Sposoby obrazovaniya terminov gruppy «dokumentovedeniye» [Ways of formation of the terms of the “document science” group]. Rusistika. 4. P. 33–38.
16. AoT. Available from: DOI
18. RussianMorphology. Available from: DOI
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).