Вязкий гравитационный алгоритм кластеризации неточных данных

Авторы

DOI:

https://doi.org/10.17308/sait.2022.1/9203

Ключевые слова:

кластеризация данных, неточные данные, гравитационный алгоритм, вязкость, отталкивание Паули

Аннотация

Кластеризация является одной из базовых задач машинного обучения, наряду с распознаванием образов, классификацией и прогнозированием. Особенно существенна роль кластеризации в анализе больших данных, работа с которыми может быть эффективной только с использованием компьютерных технологий. При этом, задача автоматического разбиения на кластеры с учетом погрешностей исходных данных не получила однозначного решения и требует поиска более адекватных подходов, включающих автоматическое определение числа кластеров. В работе предложен новый метод кластеризации данных, основанный на модификации гравитационного алгоритма, использующего аналогию с формированием звездных кластеров за счет притяжения масс в соответствии с законом всемирного тяготения. При применении такого подхода к кластеризации данных реальные физические массы заменяются точками в многомерном пространстве данных, а движение этих точек с учетом их притяжения приводит к формированию кластеров. Недостатком такого способа является проявление эффектов инерции, которые могут затруднять процесс завершения кластеризации и приводить к выбросу ускоренных частиц из кластера на стадии его формирования. Для исключения таких нежелательных событий в работе используется модель динамики вязкого движения частиц, представляющих данные, и естественное ограничение размеров кластеров за счет отталкивания частиц. Силы отталкивания частиц взяты в виде обменного взаимодействия Паули для фермионов при гауссовом распределении плотностей погрешностей. Записаны основные уравнения, описывающие работу представленной модификации гравитационного алгоритма. На численном примере продемонстрированы особенности и преимущества вязкого гравитационного алгоритма в сравнении с методом k-средних и основанном на плотностях методом DBSCAN, включая автоматическую остановку процедуры при завершении процесса кластеризации. Полученные результаты позволяют проводить слепую кластеризацию больших данных и допускают обобщение на решение задач многомерной оптимизации.

Биография автора

  • Павел Абрамович Головинский, ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

    д-р физ.-мат. наук, профессор кафедры инноватики и строительной физики им. И. С. Суровцева Воронежского государственного технического университета

Библиографические ссылки

Загрузки

Опубликован

2022-04-26

Выпуск

Раздел

Интеллектуальные системы, анализ данных и машинное обучение

Как цитировать

Вязкий гравитационный алгоритм кластеризации неточных данных. (2022). Вестник ВГУ. Серия: Системный анализ и информационные технологии, 1, 79-89. https://doi.org/10.17308/sait.2022.1/9203

Наиболее читаемые статьи этого автора (авторов)