Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементов
DOI:
https://doi.org/10.17308/sait.2020.3/3045Ключевые слова:
кластеризация, текстовая выборка, мера tf-idf, ключевые слова, индексная структура данных, алгоритм Dbscan, скорость выполненияАннотация
В данной работе рассмотрено решение задачи кластеризации больших объемов текстовых выборок фиксированной длины с помощью компьютерных средств обработки информации. Автоматическое разделение на группы близких по смыслу текстов является одной из важнейших задач анализа данных, так как имеет очень широкую область применения. Основное внимание в статье уделено скорости выполнения алгоритма. Для этого используется способ представления выборки, использующий в качестве набора признаков документов их ключевые слова, которые есть наиболее важные слова в тексте, набор которых может дать для читателя достаточно полное представление о его содержании. Ключевые слова определяются с помощью предварительно вычисленных значений статистической меры tf-idf, характеризующей важность каждого слова текста именно для рассматриваемого текста. Следующим этапом является непосредственно кластеризация корпуса документов. В данной работе используется модификация метода Dbscan, который является плотностным алгоритм пространственной кластеризации с присутствием шума, но здесь он интерпретируется как разновидность обхода в ширину с некоторыми ограничениями графа выборки документов. Поэтому в данной работе после определения ключевых слов элементов выборки строится инвертированный индекс для словаря корпуса текстов. Далее с помощью найденного инвертированного индекса определяется объект связей документов корпуса, который впоследствии передаётся в качестве аргумента в алгоритм Dbscan. Подобный подход к реализации поставленной задачи выбран из-за предположения о его быстродействии. Для проверки этого предположения проводится замер времени выполнения ключевых операций, значения которого приводятся в качестве иллюстрации результата тестирования предложенного метода кластеризации.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













