Применение комплекса инструментов управления корпусами текстов при решении задач компьютерной лингвистики

  • Сергей Александрович Полицын Московский авиационный институт (национальный исследовательский университет)
  • Екатерина Валерьевна Полицына Московский авиационный институт (национальный исследовательский университет)
Ключевые слова: корпус текстов, инструменты автоматизированного анализа текстов, разметка корпуса, краулер, управление корпусами текстов

Аннотация

Одной из актуальных задач компьютерной лингвистики, необходимых для решения других задач, в т. ч. для использования методов машинного обучения, разработки и апробации новых алгоритмов, является задача составления, разметки и оперативного пополнения корпусов текстов. В статье освещается разработка и применение комплекса инструментов управления корпусами текстов, который позволит создавать субкорпуса по настраиваемому набору признаков.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Сергей Александрович Полицын, Московский авиационный институт (национальный исследовательский университет)

канд. техн. наук, доцент, институт No 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет)

Екатерина Валерьевна Полицына, Московский авиационный институт (национальный исследовательский университет)

канд. техн. наук, доцент, институт No 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет

Литература

1. Что такое корпус? [Электронный ресурс]. URL: http://velib.com/read_book/bez_avtora/vvedenie_v_korpusnuju_lingvistiku/glava_1_chto_takoe_korpus/, свободный – Заглавие с экрана. – (15.01.2019)
2. Корпусная лингвистика как раздел языкознания [Электронный ресурс]. URL: https://www.myfilology.ru/177/ korpusnaya-lingvistika-kak-razdel-yazykoznaniya/, свободный – Заглавие с экрана. – (15.01.2019)
3. British National Corpus [Электронный ресурс]. URL: http://www.natcorp.ox.ac.uk/, свободный – Заглавие с экрана. – (20.01.2019)
4. Český národní korpus [Электронный ресурс]. URL: https://korpus.cz/, свободный – Заглавие с экрана. – (15.01.2019)
5. ГИКРЯ – Генеральный Интернет-Корпус Русского Языка [Электронный ресурс]. URL: http://www.webcorpora.ru/, свободный – Заглавие с экрана. – (15.01.2019)
6. Национальный корпус русского языка [Электронный ресурс]. URL: http://www.ruscorpora.ru/, свободный – Заглавие с экрана. – (15.01.2019)
7. Научная электронная библиотека [Электронный ресурс]. URL: https://elibrary.ru/, свободный – Заглавие с экрана. – (15.01.2019)
8. Корпусная лингвистика [Электронный ресурс]. URL: http://lomonosov-fund.ru/enc/ru/encyclopedia:01210:article, свободный – Заглавие с экрана. – (15.01.2019)
9. Полицын, С. А. Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов / С. А. Полицын, Е. В. Полицына // Вестник Воронеж. гос. ун-та. Сер. Системный анализ и информационные технологии. – 2018. – No 2. – С. 162–167.
10. Корпусная лингвистика [Электронный ресурс]. URL: http://corpora.iling.spb.ru/theory.htm, свободный – Заглавие с экрана. – (15.01.2019)
11. Машинное обучение для понимания естественного языка [Электронный ресурс]. URL: https://www.osp.ru/os/2016/01/13048649/, свободный – Заглавие с экрана. – (15.01.2019)
12. Лингвистические исследования на базе корпусов [Электронный ресурс]. – URL: a href = https://www.myfilology.ru/177/ lingvisticheskie-issledovaniya-na-baze-korpusov, свободный – Заглавие с экрана. – (Дата обращения: 02.11.2018)
13. Савчук, С. О. Национальный корпус русского языка: перспективы использования в лингвистических исследованиях и в преподавании / С. О. Савчук // Вестник Азиатско-Тихоокеанской ассоциации преподавателей русского языка и литературы. – 2011. – No 2-3. – С. 62–67.
14. Kupietz, M. The German Reference Corpus DeReKo: A primordial sample for linguistic research / M. Kupietz [et al.] // In: Calzolari, N. et al. (eds.): Proceedings of the 7th conference on International Language Resources and Evalua-tion (LREC 2010) (P. 1848–1854). Valletta, Mal-ta: European Language Resources Association (ELRA).
15. Официальный сайт библиотеки Scrappy [Электронный ресурс]. – URL: https://scrapy.org/, свободный – Заглавие с экрана. – (Дата обращения: 23.04.2019)
16. Полицына, Е. В. Разработка комплекса инструментов для управления корпусами текстов / Е. В. Полицына, С. С. Попов // В сборнике: Информатика: проблемы, методология, технологии. Сборник материалов XIX международной научно-методической конференции. Под редакцией Д. Н. Борисова. – 2019. – С. 1621–1626.
Опубликован
2019-04-24
Как цитировать
Полицын, С. А., & Полицына, Е. В. (2019). Применение комплекса инструментов управления корпусами текстов при решении задач компьютерной лингвистики. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (2), 134-142. https://doi.org/10.17308/sait.2019.2/1300
Раздел
Компьютерная лингвистика и обработка естественного языка