Анализ информационных критериев отбора значимых признаков в методах text mining

Авторы

DOI:

https://doi.org/10.17308/sait.2020.2/2924

Ключевые слова:

анализ текстовых данных, методы отбора значимых признаков, частота повторения термина, коллекция документов, оценка критериев

Аннотация

В работе проведена количественная и качественная оценка методов отбора признаков документов на основе теории информации. Целью исследования являлась проверка применения ряда критериев для редуцирования множества терминов в коллекции текстов, к которой впоследствии будут применены методы классификации с учителем и без учителя. Входные данные программной реализации были разделены по схожести тематик и, в зависимости от эксперимента, включали наборы из 45 документов трех категорий технических текстов в различных концентрациях. Для расчета критериев использовалась программная система анализа текстовых данных TextStageProcessor, расположенная как проект с открытым исходным кодом. В разделе оценки работоспособности критериев введены две величины. Первая определяет относительное количество документов, которые принадлежат категории и содержат термин. Вторая равна относительному количеству документов, принадлежащих категории и не содержащих термин. Построены графики зависимости упомянутых величин от критериев. Рассмотрены ограничения для указанных параметров. Полученные результаты для критериев MI, CHI, IG не монотонны, что свидетельствует о возможной неработоспособности этих критериев для входной коллекции и необходимости дальнейших исследований. Для второй части эксперимента проведена предварительная обработка текстов, включающая удаление стоп-слов, нормализацию термов и приведение их к нижнему регистру. Качественный вид графиков зависимостей критериев TFD, DF и TF∙IDF от ранга слова в коллекции свидетельствует о том, что с их помощью можно сократить множество входных значимых термов для классификации без потери качества для исследования.

Биографии авторов

  • Александр Леонидович Калабин, Тверской государственный технический университет

    д-р. физ.-мат. наук, проф., заведующий кафедрой Программного обеспечения ФГБОУ ВО «Тверской государственный технический университет»

  • Елена Игоревна Корнеева, Тверской государственный технический университет

    аспирант 4-го года обучения кафедры Программного обеспечения ФГБОУ ВО «Тверской государственный технический университет»

Библиографические ссылки

Загрузки

Опубликован

2020-06-15

Выпуск

Раздел

Компьютерная лингвистика и обработка естественного языка

Как цитировать

Анализ информационных критериев отбора значимых признаков в методах text mining. (2020). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 2, 150-159. https://doi.org/10.17308/sait.2020.2/2924