Применение корпуса текстов для автоматической классификации в комплексе инструментов автоматизированного анализа текстов
DOI:
https://doi.org/10.17308/sait.2018.2/1224Ключевые слова:
корпус текстов, классификация текстов, инструменты автоматизированного анализа текстов, обучение классификатораАннотация
Одной из актуальных задач компьютерной лингвистики, решаемой в рамках комплекса инструментов автоматизированного анализа текстов, является автоматическая классификация текстов. Для обучения классификатора на большом наборе предметных областей актуальной является задача полной автоматизации этого процесса, что требует наличия размеченного корпуса текстов. В статье описывается создание корпуса текстов с расширяемому разметкой и приложения для работы с ним, которое позволяет создавать субкорпуса по настраиваемому набору признаков. Это дает возможность использоваться корпус, как для обучения при решении других задач анализа текста, так и для автоматизации проверки получаемых результатов при исследовании различных методов компьютерной лингвистики.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













