TY - JOUR AU - Элеонора Александровна Головастова AU - Дмитрий Николаевич Красотин PY - 2020/09/30 Y2 - 2024/03/28 TI - Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементов JF - Вестник ВГУ. Серия: Системный анализ и информационные технологии JA - sait VL - 0 IS - 3 SE - Компьютерная лингвистика и обработка естественного языка DO - 10.17308/sait.2020.3/3045 UR - https://journals.vsu.ru/sait/article/view/3045 AB - В данной работе рассмотрено решение задачи кластеризации больших объемов текстовых выборок фиксированной длины с помощью компьютерных средств обработки информации. Автоматическое разделение на группы близких по смыслу текстов является одной из важнейших задач анализа данных, так как имеет очень широкую область применения. Основное внимание в статье уделено скорости выполнения алгоритма. Для этого используется способ представления выборки, использующий в качестве набора признаков документов их ключевые слова, которые есть наиболее важные слова в тексте, набор которых может дать для читателя достаточно полное представление о его содержании. Ключевые слова определяются с помощью предварительно вычисленных значений статистической меры tf-idf, характеризующей важность каждого слова текста именно для рассматриваемого текста. Следующим этапом является непосредственно кластеризация корпуса документов. В данной работе используется модификация метода Dbscan, который является плотностным алгоритм пространственной кластеризации с присутствием шума, но здесь он интерпретируется как разновидность обхода в ширину с некоторыми ограничениями графа выборки документов. Поэтому в данной работе после определения ключевых слов элементов выборки строится инвертированный индекс для словаря корпуса текстов. Далее с помощью найденного инвертированного индекса определяется объект связей документов корпуса, который впоследствии передаётся в качестве аргумента в алгоритм Dbscan. Подобный подход к реализации поставленной задачи выбран из-за предположения о его быстродействии. Для проверки этого предположения проводится замер времени выполнения ключевых операций, значения которого приводятся в качестве иллюстрации результата тестирования предложенного метода кластеризации. ER -