Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементов

  • Элеонора Александровна Головастова Московский государственный университет им. М. В. Ломоносова https://orcid.org/0000-0003-2802-0882
  • Дмитрий Николаевич Красотин Московский научно-исследовательский телевизионный институт https://orcid.org/0000-0001-6258-5030
Ключевые слова: кластеризация, текстовая выборка, мера tf-idf, ключевые слова, индексная структура данных, алгоритм Dbscan, скорость выполнения

Аннотация

В данной работе рассмотрено решение задачи кластеризации больших объемов текстовых выборок фиксированной длины с помощью компьютерных средств обработки информации. Автоматическое разделение на группы близких по смыслу текстов является одной из важнейших задач анализа данных, так как имеет очень широкую область применения. Основное внимание в статье уделено скорости выполнения алгоритма. Для этого используется способ представления выборки, использующий в качестве набора признаков документов их ключевые слова, которые есть наиболее важные слова в тексте, набор которых может дать для читателя достаточно полное представление о его содержании. Ключевые слова определяются с помощью предварительно вычисленных значений статистической меры tf-idf, характеризующей важность каждого слова текста именно для рассматриваемого текста. Следующим этапом является непосредственно кластеризация корпуса документов. В данной работе используется модификация метода Dbscan, который является плотностным алгоритм пространственной кластеризации с присутствием шума, но здесь он интерпретируется как разновидность обхода в ширину с некоторыми ограничениями графа выборки документов. Поэтому в данной работе после определения ключевых слов элементов выборки строится инвертированный индекс для словаря корпуса текстов. Далее с помощью найденного инвертированного индекса определяется объект связей документов корпуса, который впоследствии передаётся в качестве аргумента в алгоритм Dbscan. Подобный подход к реализации поставленной задачи выбран из-за предположения о его быстродействии. Для проверки этого предположения проводится замер времени выполнения ключевых операций, значения которого приводятся в качестве иллюстрации результата тестирования предложенного метода кластеризации.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Элеонора Александровна Головастова, Московский государственный университет им. М. В. Ломоносова

аспирант кафедры теории вероятностей механико-математического факультета Московского государственного университета им. М. В. Ломоносова

Дмитрий Николаевич Красотин, Московский научно-исследовательский телевизионный институт

ведущий инженер в ЗАО «Московский научно-исследовательский телевизионный институт»

Литература

1. Parhomenko P. A., Grigorev A. A. & Astrakhantsev N. A. A survey and an experimental comparison of methods for text clustering: application to scientific articles. Proceedings of the Institute for System Programming of the RAS. 2017. 29(2). P. 161–200. Available at: DOI
2. Aggarwal Charu C., Zhai Cheng Xiang. Mining text data. New York, Springer. 2012
3. Bogatyrev, M. Yu., Korzhuk, N. L. Application of multidimensional formal contexts in natural language text analysis. Izvestiya Tul’skogo gosudarstvennogo universiteta. Tekhnicheskie nauki. 2019. 9. P. 42–150.
4. Bejar J. K-means vs Mini Batch K-means: a comparison. 2013. Available at: URL
5. Ester M., Kriegel H. P., Sander J., Xiaowei Xu A. Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise In Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining. 1996. P. 264–323.
6. Shi M. et al. WE-LDA: A Word Embeddings Augmented LDA Model for Web Services Clustering. 2017 IEEE International Conference on Web Services (ICWS). 2017. P. 9–16. Available at: DOI
7. Alshari E. M., Azman A., Doraisamy S., Mustapha N., & Alkeshr M. Improvement of Sentiment Analysis Based on Clustering of Word2Vec Features. 2017 28th International Workshop on Database and Expert Systems Applications (DEXA). 2017. P. 123–126. Available at: DOI
8. Pennington J., Socher R. & Manning C. Glove: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. P. 1532–1543. Available at: DOI
9. Stankevičius L., Lukoševičius M. Testing pre-trained Transformer models for Lithuanian news clustering. Available at: URL
10. Bird S. NLTK.: the natural language toolkit. In proceedings of the COLING/ACL on Interactive presentation sessions. 2006. P. 69–72. Available at: DOI
11. Soloshenko A. N., Orlova Yu. A., Zaboleeva-Zotova A. V. Thematic clustering methods applied to news articles analysis. OSTIS. 2015. 5. P. 555–560.
12. Lapshin S. V., Lebedev I. S., Spivak A. I. Text clustering powered by semantico-syntactic features Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2019. 6. P. 1058–1063. Available at: DOI
13. Zakharov V. N., Mussabayev R. R., Krassovitsky A. M., Kozlovskaya Ya.D., Khoroshilov Aleksandr A., Khoroshilov Alexey A. Clustering method of news media reports based on conceptual analysis Systems and Means of Informatics. 2019. 29(3). P. 52–65. Available at: DOI
14. Golovastova E. A., Krasotin D. N. Effective clustering of a text sample depending on the different parameterization of this sample Informacionnye tekhnologii I I vichslitel’nye sistemy. 2019. 4. P. 60–69. Available at: DOI
15. Otradnov K. K., Zhukov D. O., Novikova O. A. Clustering model of low-structured text data Modern Information Technologies and IT education. 2017. 13(3). P. 100–115. Available at: DOI
16. Deviatkin D. A., Suvorov R. E., Sochenkov I. V. A method for topic clustering for large science publication collections Informacionnye tekhnologii I I vichslitel’nye sistemy. 2013. 1. P. 33–42.
17. Guttman A. R-Trees – A Dynamic Index Structure for Spatial Searching. In: Proc. of 13th Int. Conf. on Mang. of Data ACM SIGMOD. 1984. 2. P. 47–57. Available at: DOI
18. Mahesh Kumar K. & Rama Mohan Reddy A. A fast DBSCAN clustering algorithm by accelerating neighbor searching using Groups method. Pattern Recognition. 2016. 58. P. 39–48. Available at: DOI
19. Rousseeuw P. J. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics. 1987. 20. P. 53–65. Available at: DOI
Опубликован
2020-09-30
Как цитировать
Головастова, Э. А., & Красотин, Д. Н. (2020). Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементов. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (3), 108-119. https://doi.org/10.17308/sait.2020.3/3045
Раздел
Компьютерная лингвистика и обработка естественного языка