Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов

Сергей Александрович Полицын; Екатерина Валерьевна Полицына

doi:10.17308/sait.2018.2/1224

Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов

Авторы

Сергей Александрович Полицын Московский авиационный институт (национальный исследовательский университет)
Екатерина Валерьевна Полицына Московский авиационный институт (национальный исследовательский университет)

DOI:

https://doi.org/10.17308/sait.2018.2/1224

Ключевые слова:

корпус текстов, классификация текстов, инструменты автоматизированного анализа текстов, обучение классификатора

Аннотация

Одной из актуальных задач компьютерной лингвистики, решаемой в рамках комплекса инструментов автоматизированного анализа текстов, является автоматическая классификация текстов. Для обучения классификатора на большом наборе предметных областей актуальной является задача полной автоматизации этого процесса, что требует наличия размеченного корпуса текстов. В статье описывается создание корпуса текстов с расширяемому разметкой и приложения для работы с ним, которое позволяет создавать субкорпуса по настраиваемому набору признаков. Это дает возможность использоваться корпус, как для обучения при решении других задач анализа текста, так и для автоматизации проверки получаемых результатов при исследовании различных методов компьютерной лингвистики.

Биографии авторов

Сергей Александрович Полицын, Московский авиационный институт (национальный исследовательский университет)

ст. преподаватель, институт No 3, кафедра 319, Мо-сковский авиационный институт (Национальный исследовательский университет).
Екатерина Валерьевна Полицына, Московский авиационный институт (национальный исследовательский университет)

канд. техн. наук, доцент, институт No 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет).

Библиографические ссылки

Загрузки

Опубликован

2018-01-29

Выпуск

№ 2 (2018): Апрель - Июнь

Раздел

Компьютерная лингвистика и обработка естественного языка

Лицензия

Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).

Как цитировать

Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов. (2018). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 2, 162-167. https://doi.org/10.17308/sait.2018.2/1224