Формирование признаков машинного обучения на основе топологического анализа данных
Аннотация
В настоящее время возрос интерес к использованию методов алгебраической топологии для топологического анализа данных и применению топологического анализа данных в различных областях знаний. Целью топологического анализа данных является определение информативных топологических свойств и использование их в качестве дескрипторов при машинном обучении. Применение методов машинного обучения для сложных систем большой размерности затруднено из-за методов адекватного представления функций. Метод персистентной гомологии из вычислительной топологии обеспечивает баланс между уменьшением размерности данных и характеристикой внутренней структуры объекта. Совмещению персистентной гомологии и машинного обучения препятствуют топологические представления данных, метрики расстояния и представление объектов данных. В работе используется метод персистентной гомологии, основанный применении фильтрации для присвоения каждому топологическому признаку геометрической размерности. Процесс фильтрации генерирует серии симплициальных комплексов, кодируемых со структурной информацией различных масштабов. Персистентная гомология может быть представлена персистентным баркодом или персистентной диаграммой. В работе рассматриваются математические модели и функции представления объектов персистентного ландшафта на основе метода персистентной гомологии. Рассмотрены персистентные функции Бетти и функции персистентного ландшафта. Функции персистентного ландшафта позволяют отображать персистентные диаграммы и персистентные баркоды в гильбертово пространство. Рассмотрены представления топологических характеристик в различных моделях машинного обучения. Рассмотрена структура ядра для анализа персистентных диаграмм и персистентное взвешенное ядро Гаусса. Метод персистентного взвешенного ядра позволяет контролировать персистентность при анализе данных. Расстояния между персистентными ландшафтами определяются с помощью нормы пространства Lp. Приведены примеры нахождения расстояния между изображениями. В приложениях приведены основные понятия алгебраической топологии и метод воспроизводящего ядра гильбертова пространства для целей машинного обучения.
Скачивания
Литература
2. Edelsbrunner H., Harer J. (2010) Computational topology: an introduction. American Mathematical Soc.
3. Kusano G., Hiraoka Y., Fukumizu K. (2016) Persistence weighted Gaussian kernel for topological data analysis. International Conference on Machine Learning. PMLR, 2016. P. 2004–2013.
4. Hofer C., Kwitt R., Niethammer M., Uhl A. (2017) Deep learning with topological signatures. In Advances in Neural Information Processing Systems. P. 1634–1644.
5. Hatcher A. (2005) Algebraic Topology. Cambridge UP.
6. Zomorodian A. J. (2005) Topology for computing. Cambridge UP. Vol. 16.
7. Bubenik P. (2020) The persistence landscape and some of its properties. Topological Data Analysis. Springer, Cham. P. 97–117. DOI
8. Pun C. S., Xia K., Lee S. X. (2018) Persistent-Homology-based Machine Learning and its Applications – A Survey. arXiv preprint arXiv:1811.00252. DOI
9. Kwitt R., Huber S., Niethammer M., Lin W., Bauer U. (2015) Statistical topological data analysis – a kernel perspective. In Advances in Neural Information Processing Systems 28. Curran Associates, Inc. P. 3052–3060.
10. Sriperumbudur B. K., Fukumizu K., Lanckriet G. R. G. (2011) Universality, Characteristic Kernels and RKHS Embedding of Measures. Journal of Machine Learning Research. Vol. 12, No 7 – P. 2389–2410. DOI
11. Ghrist R. (2008) Barcodes: the persistent topology of data. Bulletin of the American Mathematical Society. Vol. 45, No 1. P. 61–75. DOI
12. Mischaikow K., Nanda V. (2013) Morse theory for filtrations and efficient computation of persistent homology. Discrete & Computational Geometry. Vol. 50, No 2. P. 330–353. DOI
13. Xia K. (2017) A quantitative structure comparison with persistent similarity. arXiv preprint arXiv:1707.03572. DOI
14. Chukanov S. N. (2019) Comparison of objects’ images based on computational topology methods. Informatics and Automation. Vol. 18, No 5. P. 1043–1065.
15. Chukanov S. N. (2020) The Comparison of Diffeomorphic Images based on the Construction of Persistent Homology. Automatic Control and Computer Sciences. Vol. 54, No 7. P. 758–771. DOI
16. Barbarossa S., Sardellitti S. (2020) Topological signal processing over simplicial complexes. IEEE Transactions on Signal Processing. Vol. 68. P. 2992–3007. DOI
17. Dalal N., Triggs B. (2005) Histograms of oriented gradients for human detection. Comp. Vis. and Patt. Rec. Vol. 1. P. 886–893. DOI
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).