Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементов

Авторы

DOI:

https://doi.org/10.17308/sait.2020.3/3045

Ключевые слова:

кластеризация, текстовая выборка, мера tf-idf, ключевые слова, индексная структура данных, алгоритм Dbscan, скорость выполнения

Аннотация

В данной работе рассмотрено решение задачи кластеризации больших объемов текстовых выборок фиксированной длины с помощью компьютерных средств обработки информации. Автоматическое разделение на группы близких по смыслу текстов является одной из важнейших задач анализа данных, так как имеет очень широкую область применения. Основное внимание в статье уделено скорости выполнения алгоритма. Для этого используется способ представления выборки, использующий в качестве набора признаков документов их ключевые слова, которые есть наиболее важные слова в тексте, набор которых может дать для читателя достаточно полное представление о его содержании. Ключевые слова определяются с помощью предварительно вычисленных значений статистической меры tf-idf, характеризующей важность каждого слова текста именно для рассматриваемого текста. Следующим этапом является непосредственно кластеризация корпуса документов. В данной работе используется модификация метода Dbscan, который является плотностным алгоритм пространственной кластеризации с присутствием шума, но здесь он интерпретируется как разновидность обхода в ширину с некоторыми ограничениями графа выборки документов. Поэтому в данной работе после определения ключевых слов элементов выборки строится инвертированный индекс для словаря корпуса текстов. Далее с помощью найденного инвертированного индекса определяется объект связей документов корпуса, который впоследствии передаётся в качестве аргумента в алгоритм Dbscan. Подобный подход к реализации поставленной задачи выбран из-за предположения о его быстродействии. Для проверки этого предположения проводится замер времени выполнения ключевых операций, значения которого приводятся в качестве иллюстрации результата тестирования предложенного метода кластеризации.

Биографии авторов

  • Элеонора Александровна Головастова, Московский государственный университет имени М.В. Ломоносова

    аспирант кафедры теории вероятностей механико-математического факультета Московского государственного университета им. М. В. Ломоносова

  • Дмитрий Николаевич Красотин, Московский научно-исследовательский телевизионный институт

    ведущий инженер в ЗАО «Московский научно-исследовательский телевизионный институт»

Библиографические ссылки

Загрузки

Опубликован

2020-09-30

Выпуск

Раздел

Компьютерная лингвистика и обработка естественного языка

Как цитировать

Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементов. (2020). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 3, 108-119. https://doi.org/10.17308/sait.2020.3/3045