Анализ информационных критериев отбора значимых признаков в методах text mining
DOI:
https://doi.org/10.17308/sait.2020.2/2924Ключевые слова:
анализ текстовых данных, методы отбора значимых признаков, частота повторения термина, коллекция документов, оценка критериевАннотация
В работе проведена количественная и качественная оценка методов отбора признаков документов на основе теории информации. Целью исследования являлась проверка применения ряда критериев для редуцирования множества терминов в коллекции текстов, к которой впоследствии будут применены методы классификации с учителем и без учителя. Входные данные программной реализации были разделены по схожести тематик и, в зависимости от эксперимента, включали наборы из 45 документов трех категорий технических текстов в различных концентрациях. Для расчета критериев использовалась программная система анализа текстовых данных TextStageProcessor, расположенная как проект с открытым исходным кодом. В разделе оценки работоспособности критериев введены две величины. Первая определяет относительное количество документов, которые принадлежат категории и содержат термин. Вторая равна относительному количеству документов, принадлежащих категории и не содержащих термин. Построены графики зависимости упомянутых величин от критериев. Рассмотрены ограничения для указанных параметров. Полученные результаты для критериев MI, CHI, IG не монотонны, что свидетельствует о возможной неработоспособности этих критериев для входной коллекции и необходимости дальнейших исследований. Для второй части эксперимента проведена предварительная обработка текстов, включающая удаление стоп-слов, нормализацию термов и приведение их к нижнему регистру. Качественный вид графиков зависимостей критериев TFD, DF и TF∙IDF от ранга слова в коллекции свидетельствует о том, что с их помощью можно сократить множество входных значимых термов для классификации без потери качества для исследования.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













