Метод оценки эффективности использования семантической информации в Visual SLAM

  • Артур Владимирович Подтихов Санкт-Петербургский Федеральный исследовательский центр Российской академии наук https://orcid.org/0009-0008-3022-5282
  • Антон Игоревич Савельев Санкт-Петербургский Федеральный исследовательский центр Российской академии наук https://orcid.org/0000-0003-1851-2699
Ключевые слова: SLAM, семантическая информация, эффективность, ORB-SLAM3, семантическая сегментация, динамические объекты, Carla

Аннотация

В работе представлен метод для оценки эффективности внедрения семантической информации в алгоритм ORB-SLAM3. Недетерминированность базового алгоритма затрудняет объективное сравнение различных модификаций. Кроме того, существующие семантические модификации оцениваются на реальных данных с использованием моделей сегментации изображений, что вносит дополнительный шум в результаты. С целью преодоления указанных ограничений предложен метод, который включает: детерминированную версию алгоритма, принимающую на вход семантическую информацию и информацию о динамических объектах; специальный набор данных из последовательностей движения робота в городской среде при различных условиях, содержащих кадры стереопары, семантические маски и список подвижных объектов; алгоритм оценки изменения точности локализации после внесения модификаций. Была модифицирована карта Town10HD из симулятора Carla для предоставления более точной информации о различных экземплярах семантических классов. На основе предложенного метода осуществлена экспериментальная оценка различных стратегий использования семантической информации при осуществлении локализации. Предложенный метод был использован для проведения 31-го эксперимента, включающих методы улучшения ассоциации ключевых точек, учета динамических объектов и выбора новых точек карты для оптимизации работы с новой информацией об окружающем пространстве. В результате анализа установлено значительное влияние качества семантической сегментации на точность работы алгоритма. Предложены способы повышения устойчивости к ошибкам сегментации, включая динамическую корректировку семантических классов точек карты и использование информации об экземплярах объектов. Кроме того, показано, что удаление динамических объектов может как улучшить, так и ухудшить точность локализации в зависимости от сложности среды.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Артур Владимирович Подтихов, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук

аспирант лаборатории автономных робототехнических систем Санкт-Петербургского Федерального исследовательского центра Российской академии наук

Антон Игоревич Савельев, Санкт-Петербургский Федеральный исследовательский центр Российской академии наук

канд. техн. наук, старший научный сотрудник лаборатории автономных робототехнических систем Санкт-Петербургского Федерального исследовательского центра Российской академии наук

Литература

1. Kuutti S. [et al.] (2018) A survey of the state-of-the-art localization techniques and their potentials for autonomous vehicle applications. IEEE Internet of Things Journal. 5 (2). P. 829–846. DOI
2. Yousif K., Bab-Hadiashar A. and Hoseinnezhad R. (2015) An overview to visual odometry and visual slam: Applications to mobile robotics. Intelligent Industrial Systems. 1 (4). P. 289–311. Available at: doi:10.1007/s40903-015-0032-7" target="_blank">DOI
3. Campos C. [et al.] (2021) Orb-slam3: An accurate open-source library for visual, visual– inertial, and Multimap Slam. IEEE Transactions on Robotics. 37 (6). P. 1874–1890. DOI
4. ORB-SLAM3-S emanticEvaluation. URL
5. Wang Y. [et al.] (2024) A survey of visual slam in dynamic environment: The evolution from geometric to Semantic approaches. IEEE Transactions on Instrumentation and Measurement. 73. P. 1–21. DOI
6. He K. [et al.] (2017) Mask R-CNN. 2017 IEEE International Conference on Computer Vision (ICCV), Oct. 2017. DOI
7. Redmon J. [et al.] (2016) You only look once: Unified, real-time object detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 27–30 June 2016, Las Vegas, NV, USA. P. 779–788. DOI
8. Bescos B. [et al.] (2018) DynaSLAM: Tracking, mapping, and inpainting in dynamic scenes. IEEE Robotics and Automation Letters. 3 (4). P. 4076–4083. DOI
9. Yu C. [et al.] (2018) DS-SLAM: A semantic visual slam towards dynamic environments. 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 1–5 Oct. 2018, Madrid, Spain. P. 1168–1174. DOI
10. Henein M. [et al.] (2020) Dynamic slam: The need for speed. 2020 IEEE International Conference on Robotics and Automation (ICRA), 31 May-31 Aug. 2020. – Paris, France. P. 2123–2129. DOI
11. Zheng Z., Lin S. and Yang C. (2024) RLDslam: A robust lightweight VI-slam for dynamic environments leveraging semantics and motion information. IEEE Transactions on Industrial Electronics. 71 (11). P. 14328–14338. DOI
12. Schorghuber M. [et al.] (2019) Slamantic – leveraging semantics to improve VSLAM in dynamic environments. 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), 27–28 Oct. 2019, Seoul, Korea (South). P. 3759–3768. DOI
13. Geiger A. [et al.] (2013) Vision Meets Robotics: The kitti dataset. The International Journal of Robotics Research. 32 (11). P. 1231–1237. DOI
14. Ganti P. and Waslander S. L. (2019) Network uncertainty informed semantic feature selection for visual slam. 2019 16th Conference on Computer and Robot Vision (CRV). 29-31 May 2019, Kingston, QC, Canada. P. 121–128. DOI
16. Bowman S. L. [et al.] (2017) Probabilistic Data Association for Semantic Slam. 2017 IEEE International Conference on Robotics and Automation (ICRA), 19 May – 3 July 2019, Singapore. P. 1722–1729. DOI
17. Lianos K.-N. [et al.] (2018). VSO: Visual Semantic Odometry. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds) Computer Vision – ECCV 2018. ECCV 2018. Lecture Notes in Computer Science, 11208. Springer, Cham. DOI
18. Gawel A. [et al.] (2018) X-view: Graphbased semantic multi-view localization. IEEE Robotics and Automation Letters. 3 (3). P. 1687– 1694. DOI
19. Dubé R. [et al.] (2018) SEGMAP: 3D segment mapping using data-driven descriptors [Preprint]. URL
20. Rosinol A. [et al.] (2020) Kimera: An open-source library for real-time metric-semantic localization and mapping. 2020 IEEE International Conference on Robotics and Automation (ICRA), 31 May – 31 Aug. 2020, Paris, France. P. 1689–1696. DOI
21. Dosovitskiy A. [et al.] (2017) CARLA: An Open Urban Driving Simulator. Proceedings of the 1st Annual Conference on Robot Learning. 78. P. 1–16. URL
22. Cordts M. [et al.] (2016) The cityscapes dataset for Semantic Urban Scene understanding. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 27–30 June 2016, Las Vegas, NV, USA. P. 3213–3223. DOI
23. Rublee E. [et al.] (2011) Orb: An efficient alternative to SIFT or surf. 2011 International Conference on Computer Vision, 6–13 Nov. 2011, Barcelona, Spain. P. 2564–2571. DOI
24. Podtikhov A. V. and Saveliev A. I. (2024) An open dataset for testing Visual SLAM algorithms under various weather conditions. Proceedings of educational institutions of communication. 10 (1). P. 97–106. (In Russian). DOI
25. Fontan A. [et al.] (2023). Motion-Bias-Free Feature-Based SLAM [Preprint]. URL
26. Fischler M. A. and Bolles R. C. (1981) Random sample consensus. Communications of the ACM. 24 (6). P. 381–395. DOI
27. Saputra M. R., Markham A. and Trigoni N. (2018) Visual slam and structure from motion in Dynamic Environments. ACM Computing Surveys. 51 (2). P. 1–36. DOI
Опубликован
2025-05-12
Как цитировать
Подтихов, А. В., & Савельев, А. И. (2025). Метод оценки эффективности использования семантической информации в Visual SLAM. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 115-132. https://doi.org/10.17308/sait/1995-5499/2025/1/115-132
Раздел
Интеллектуальные системы, анализ данных и машинное обучение