Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов

Авторы

  • Сергей Александрович Полицын Московский авиационный институт (национальный исследовательский университет)
  • Екатерина Валерьевна Полицына Московский авиационный институт (национальный исследовательский университет)

DOI:

https://doi.org/10.17308/sait.2018.2/1224

Ключевые слова:

корпус текстов, классификация текстов, инструменты автоматизированного анализа текстов, обучение классификатора

Аннотация

Одной из актуальных задач компьютерной лингвистики, решаемой в рамках комплекса инструментов автоматизированного анализа текстов, является автоматическая классификация текстов. Для обучения классификатора на большом наборе предметных областей актуальной является задача полной автоматизации этого процесса, что требует наличия размеченного корпуса текстов. В статье описывается создание корпуса текстов с расширяемому разметкой и приложения для работы с ним, которое позволяет создавать субкорпуса по настраиваемому набору признаков. Это дает возможность использоваться корпус, как для обучения при решении других задач анализа текста, так и для автоматизации проверки получаемых результатов при исследовании различных методов компьютерной лингвистики.

Биографии авторов

  • Сергей Александрович Полицын, Московский авиационный институт (национальный исследовательский университет)

    ст. преподаватель, институт No 3, кафедра 319, Мо-сковский авиационный институт (Национальный исследовательский университет).

  • Екатерина Валерьевна Полицына, Московский авиационный институт (национальный исследовательский университет)

    канд. техн. наук, доцент, институт No 3, кафедра 319, Московский авиационный институт (Национальный исследовательский университет).

Библиографические ссылки

Загрузки

Опубликован

2018-01-29

Выпуск

Раздел

Компьютерная лингвистика и обработка естественного языка

Как цитировать

Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов. (2018). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 2, 162-167. https://doi.org/10.17308/sait.2018.2/1224

Наиболее читаемые статьи этого автора (авторов)