Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов

  • Сергей Александрович Полицын Московский авиационный институт (национальный исследовательский университет)
  • Екатерина Валерьевна Полицына Московский авиационный институт (национальный исследовательский университет)
Ключевые слова: корпус текстов, классификация текстов, инструменты автоматизированного анализа текстов, обучение классификатора

Аннотация

Одной из актуальных задач компьютерной лингвистики, решаемой в рамках комплекса инструментов автоматизированного анализа текстов, является автоматическая классификация текстов. Для обучения классификатора на большом наборе предметных областей актуальной является задача полной автоматизации этого процесса, что требует наличия размеченного корпуса текстов. В статье описывается создание корпуса текстов с расширяемому разметкой и приложения для работы с ним, которое позволяет создавать субкорпуса по настраиваемому набору признаков. Это дает возможность использоваться корпус, как для обучения при решении других задач анализа текста, так и для автоматизации проверки получаемых результатов при исследовании различных методов компьютерной лингвистики.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Сергей Александрович Полицын, Московский авиационный институт (национальный исследовательский университет)

ст. преподаватель, институт No 3, кафедра 319, Мо-сковский авиационный институт (Национальный исследовательский университет).

Екатерина Валерьевна Полицына, Московский авиационный институт (национальный исследовательский университет)

канд. техн. наук, доцент, институт No 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет).

Литература

1. Балакирев Н. Е., Полицына Е. В. Подход к созданию комплекса инструментов автоматизированного анализа текстов на русском языке // Вестник Воронеж. гос. ун-та. Сер. Системный анализ и информационные технологии. – 2016. – No 2. – С. 98–105.
2. Портал «Автоматизированный анализ текста» [Электронный ресурс]. URL: http://textanalysis.ru/
3. Полицына, Е. В. Создание настраиваемого сервиса классификации в составе открытой системы автоматизированного анализа текста // Материалы XIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 1. Воронеж, 2013. – С. 73–77.
4. Козлова, Н. В. Лингвистические корпуса: определение основных понятий и типология / Н. В. Козлова // Вестник НГУ, Лингвистика и межкультурная коммуникация. – 2013. – Т. 11, выпуск 1. – С. 79–88.
5. Гаинева, И. Ф. Об использовании корпусов в лингвистических исследованиях / И. Ф. Ганиева // Вестник Башкирского университета. – 2007. – Т. 4, No 12. – С. 104–106.
6. Рубцова Ю. В. Построение корпуса текстов для настройки тонового классификатора / Ю. В. Рубцова // Программные продукты и системы. –2015. – No 1. – С. 72–78.
7. Национальный корпус русского языка [Электронный ресурс] – URL: http://ruscorpora.ru
8. Ханко-хельсинкский аннотированный корпус [Электронный ресурс] – URL: http://www.ling.helsinki.fi/projects/hanco/
9. General Internet-Corpus of Russian [Электронный ресурс] – URL: http://www.webcorpora.ru
10. «Открытый корпус» (OpenCorpora) [Электронный ресурс] – : URL: http://opencorpora.org/
11. Корпус коротких текстов на русском языке на основе постов twitter – URL: http://study.mokoron.com/
12. Применение современных методов корпусной лингвистики при анализе текста // Молодежный научный форум: Гуманитарные науки: электр. сб. ст. по материалам XXV студ. междунар. заочной науч.-практ. конф. – М. : «МЦНО». – 2015. – No 6(24) [Электронный ресурс]. – URL: http://nauchforum.ru/archive/MNF_humanities/6(24).pdf
13. Иващенко, М. В. Анализ методов автоматизированного выделения ключевых слов из текстов на естественном языке / М. В. Иващенко // Материалы XVIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 6, Воронеж. – 2018. – С. 19–24.
14. Пряженцева, А. А. Анализ методов автоматизированного выделения ключевых слов из текстов на естественном языке / А. А. Пряженцева // Материалы XVIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 6, Воронеж. – 2018. – С. 56–60.
15. Белов, С. М. Создание программной системы классификации текстов / С. М. Белов // Материалы XVIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 6, Воронеж. – 2018. – С. 8–12.
Опубликован
2018-01-29
Как цитировать
Полицын, С. А., & Полицына, Е. В. (2018). Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (2), 162-167. https://doi.org/10.17308/sait.2018.2/1224
Раздел
Компьютерная лингвистика и обработка естественного языка