Вязкий гравитационный алгоритм кластеризации неточных данных
DOI:
https://doi.org/10.17308/sait.2022.1/9203Ключевые слова:
кластеризация данных, неточные данные, гравитационный алгоритм, вязкость, отталкивание ПаулиАннотация
Кластеризация является одной из базовых задач машинного обучения, наряду с распознаванием образов, классификацией и прогнозированием. Особенно существенна роль кластеризации в анализе больших данных, работа с которыми может быть эффективной только с использованием компьютерных технологий. При этом, задача автоматического разбиения на кластеры с учетом погрешностей исходных данных не получила однозначного решения и требует поиска более адекватных подходов, включающих автоматическое определение числа кластеров. В работе предложен новый метод кластеризации данных, основанный на модификации гравитационного алгоритма, использующего аналогию с формированием звездных кластеров за счет притяжения масс в соответствии с законом всемирного тяготения. При применении такого подхода к кластеризации данных реальные физические массы заменяются точками в многомерном пространстве данных, а движение этих точек с учетом их притяжения приводит к формированию кластеров. Недостатком такого способа является проявление эффектов инерции, которые могут затруднять процесс завершения кластеризации и приводить к выбросу ускоренных частиц из кластера на стадии его формирования. Для исключения таких нежелательных событий в работе используется модель динамики вязкого движения частиц, представляющих данные, и естественное ограничение размеров кластеров за счет отталкивания частиц. Силы отталкивания частиц взяты в виде обменного взаимодействия Паули для фермионов при гауссовом распределении плотностей погрешностей. Записаны основные уравнения, описывающие работу представленной модификации гравитационного алгоритма. На численном примере продемонстрированы особенности и преимущества вязкого гравитационного алгоритма в сравнении с методом k-средних и основанном на плотностях методом DBSCAN, включая автоматическую остановку процедуры при завершении процесса кластеризации. Полученные результаты позволяют проводить слепую кластеризацию больших данных и допускают обобщение на решение задач многомерной оптимизации.
Библиографические ссылки
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).













