Формирование признаков машинного обучения на основе топологического анализа данных

Сергей Николаевич Чуканов; Илья Станиславович Чуканов

doi:10.17308/sait/1995-5499/2022/3/115-126

Сергей Николаевич Чуканов Институт математики им. Соболева С.Л. СО РАН https://orcid.org/0000-0002-8106-9813
Илья Станиславович Чуканов Уральский федеральный университет им. Первого президента России Б. Н. Ельцина https://orcid.org/0000-0001-9946-7484

DOI: https://doi.org/10.17308/sait/1995-5499/2022/3/115-126

Ключевые слова: симплициальный комплекс, персистентные гомологии, персистентный ландшафт, машинное обучение, RKHS, гильбертово пространство

Аннотация

В настоящее время возрос интерес к использованию методов алгебраической топологии для топологического анализа данных и применению топологического анализа данных в различных областях знаний. Целью топологического анализа данных является определение информативных топологических свойств и использование их в качестве дескрипторов при машинном обучении. Применение методов машинного обучения для сложных систем большой размерности затруднено из-за методов адекватного представления функций. Метод персистентной гомологии из вычислительной топологии обеспечивает баланс между уменьшением размерности данных и характеристикой внутренней структуры объекта. Совмещению персистентной гомологии и машинного обучения препятствуют топологические представления данных, метрики расстояния и представление объектов данных. В работе используется метод персистентной гомологии, основанный применении фильтрации для присвоения каждому топологическому признаку геометрической размерности. Процесс фильтрации генерирует серии симплициальных комплексов, кодируемых со структурной информацией различных масштабов. Персистентная гомология может быть представлена персистентным баркодом или персистентной диаграммой. В работе рассматриваются математические модели и функции представления объектов персистентного ландшафта на основе метода персистентной гомологии. Рассмотрены персистентные функции Бетти и функции персистентного ландшафта. Функции персистентного ландшафта позволяют отображать персистентные диаграммы и персистентные баркоды в гильбертово пространство. Рассмотрены представления топологических характеристик в различных моделях машинного обучения. Рассмотрена структура ядра для анализа персистентных диаграмм и персистентное взвешенное ядро Гаусса. Метод персистентного взвешенного ядра позволяет контролировать персистентность при анализе данных. Расстояния между персистентными ландшафтами определяются с помощью нормы пространства Lp. Приведены примеры нахождения расстояния между изображениями. В приложениях приведены основные понятия алгебраической топологии и метод воспроизводящего ядра гильбертова пространства для целей машинного обучения.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Сергей Николаевич Чуканов, Институт математики им. Соболева С.Л. СО РАН

д-р техн. наук, ведущий научный сотрудник Института математики им. С. Л. Соболева СО РАН (Омский филиал), проф.,

Илья Станиславович Чуканов, Уральский федеральный университет им. Первого президента России Б. Н. Ельцина

студент, Уральский федеральный университет им. Первого президента России Б. Н. Ельцина

Литература

1. Carlsson G. (2009) Topology and data. Bulletin of the American Mathematical Society. Vol. 46, No 2. P. 255–308. DOI
2. Edelsbrunner H., Harer J. (2010) Computational topology: an introduction. American Mathematical Soc.
3. Kusano G., Hiraoka Y., Fukumizu K. (2016) Persistence weighted Gaussian kernel for topological data analysis. International Conference on Machine Learning. PMLR, 2016. P. 2004–2013.
4. Hofer C., Kwitt R., Niethammer M., Uhl A. (2017) Deep learning with topological signatures. In Advances in Neural Information Processing Systems. P. 1634–1644.
5. Hatcher A. (2005) Algebraic Topology. Cambridge UP.
6. Zomorodian A. J. (2005) Topology for computing. Cambridge UP. Vol. 16.
7. Bubenik P. (2020) The persistence landscape and some of its properties. Topological Data Analysis. Springer, Cham. P. 97–117. DOI
8. Pun C. S., Xia K., Lee S. X. (2018) Persistent-Homology-based Machine Learning and its Applications – A Survey. arXiv preprint arXiv:1811.00252. DOI
9. Kwitt R., Huber S., Niethammer M., Lin W., Bauer U. (2015) Statistical topological data analysis – a kernel perspective. In Advances in Neural Information Processing Systems 28. Curran Associates, Inc. P. 3052–3060.
10. Sriperumbudur B. K., Fukumizu K., Lanckriet G. R. G. (2011) Universality, Characteristic Kernels and RKHS Embedding of Measures. Journal of Machine Learning Research. Vol. 12, No 7 – P. 2389–2410. DOI
11. Ghrist R. (2008) Barcodes: the persistent topology of data. Bulletin of the American Mathematical Society. Vol. 45, No 1. P. 61–75. DOI
12. Mischaikow K., Nanda V. (2013) Morse theory for filtrations and efficient computation of persistent homology. Discrete & Computational Geometry. Vol. 50, No 2. P. 330–353. DOI
13. Xia K. (2017) A quantitative structure comparison with persistent similarity. arXiv preprint arXiv:1707.03572. DOI
14. Chukanov S. N. (2019) Comparison of objects’ images based on computational topology methods. Informatics and Automation. Vol. 18, No 5. P. 1043–1065.
15. Chukanov S. N. (2020) The Comparison of Diffeomorphic Images based on the Construction of Persistent Homology. Automatic Control and Computer Sciences. Vol. 54, No 7. P. 758–771. DOI
16. Barbarossa S., Sardellitti S. (2020) Topological signal processing over simplicial complexes. IEEE Transactions on Signal Processing. Vol. 68. P. 2992–3007. DOI
17. Dalal N., Triggs B. (2005) Histograms of oriented gradients for human detection. Comp. Vis. and Patt. Rec. Vol. 1. P. 886–893. DOI