К вопросу об увеличении производительности машинного обучения на этапе выборки данных при решении задач классификации

  • Роман Александрович Дьяченко Кубанский государственный технологический университет https://orcid.org/0000-0003-1244-1228
  • Павел Александрович Косолапов Кубанский государственный технологический университет https://orcid.org/0000-0003-2149-6167
  • Дмитрий Андреевич Гура Кубанский государственный аграрный университет им. И. Т. Трубилина https://orcid.org/0000-0002-2748-9622
Ключевые слова: выборка данных, нейронные сети, Point Cloud, ЦУР

Аннотация

Целью исследования является определение метода хранения данных для задач машинного обучения нейронных сетей и семантической сегментации облаков точек. Рассмотрены существующие способы хранения массивов данных большого размера, проведены экспериментальные исследования для определения быстродействия операции чтения данных. Во время проведения эксперимента была осуществлена подготовка данных, заключающаяся в отборе информации из общей выборки. В качестве критериев отбора выделяются координаты точек, метка класса и количество записей в исходном дата сете. Все необходимые параметры и их структура приведены и описаны в работе. Метки класса, в силу представления исходного дата сета, претерпели некоторое преобразование. После отбора информации была произведена ее конвертация в исследуемые форматы файлов с последующим сохранением для проведения экспериментов. Для проведения исследований были взяты наиболее распространенные форматы файлов, используемые для хранения информации *.csv, *.npy и *.h5. После получения данных для эксперимента последовал этап непосредственно проведения эксперимента. Эксперимент заключался в воспроизведении процесса доступа к информации из предварительно полученных файлов и последующей загрузкой информации на входной слой нейронной сети без процесса обучения. Результатом эксперимента стала статистическая информация о времени чтения файла в зависимости от выбранной структуры и объема хранимой в нем информации. Кроме этого, был подведен итог о целесообразности использования того или иного способа хранения информации в условиях предметной области работы, исходя из принципа работы того или иного формата файла.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Роман Александрович Дьяченко, Кубанский государственный технологический университет

д-р техн. наук, проф., профессор кафедры Информатики и вычислительной техники Кубанского государственного технологического университета

Павел Александрович Косолапов, Кубанский государственный технологический университет

аспирант кафедры информатики и вычислительной техники Кубанского государственного технологического университета

Дмитрий Андреевич Гура, Кубанский государственный аграрный университет им. И. Т. Трубилина

канд. техн. наук, доц., доцент кафедры Кадастра и геоинженерии Кубанского государственного технологического университета, доцент кафедры Геодезии Кубанского государственного аграрного университета им. И. Т. Трубилина

Литература

1. Lean Yu, Xiaoming Zhang and Hang Yin (2022) An extreme learning machine based virtual sample generation method with feature engineering for credit risk assessment with data. Expert Systems with Applications, 2 May 2022. DOI
2. Dawei Zhao, Qingwei Gao and Dong Sun (2022) Learning view-specific labels and label-feature dependence maximization for multi-view multi-label classification. Applied Soft Computing, 31 May 2022, DOI
3. Risto Kaijaluoto, Antero Kukko and Harri Kaartinen (2022) Semantic segmentation of point cloud data using raw laser scanner measurements and deep neural networks. ISPRS Open Journal of Photogrammetry and Remote Sensing, 16 December 2021. Vol. 3 (Cover date: January 2022) Article 100011. DOI
4. Di Wang, Lulu Tang and Zhi-Xin Yang (2022) Improving deep learning on point cloud by maximizing mutual information across layers. Pattern Recognition. 8 July 2022. Vol. 131 (Cover date: November 2022) Article 108892. DOI
5. Hanchen Wang, Qi Liu, Xiangyu Yue, Joan Lasenby and Matt J. Kusner (202) Pre-training by completing point clouds. ICLR 2021 Conference Blind Submission. P. 1–20.
6. Gura D. A., Markovskii I. G. and Pshidatok S. K. (2021) Methods of monitoring real estate objects using three-dimensional laser scanning in the specifics of urban lands. Geodesy and cartography = Geodezia i Kartografia. (82). P. 45–53. DOI
7. Dyachenko R., Gura D., Samarin S., Bespyatchuk D. and Solodunov A. (2021) Analysis of algorithms for terrestrial recognition of woody vegetation using 3D-laser scanning technology. IOP Conference Series: Earth and Environmental Science (867). 012166. DOI
8. Gura D. A., Bespyatchuk D. A., Samarin S. V., Kiryunikova N. M and Lesovaya E. D. (2021) Technology of three-dimensional laser scanning as a tool to provide safety for sport facilities. Nanotechnologies in construction. (13). P. 259–263. DOI
9. Gura D. A., Gribkova I. S., Khusht N. I. and Pshidatok S. K. (2021) Knowledge Base as a Part of Intelligent System for Security Monitoring of Infrastructure Objects. Industry Competitiveness: Digitalization, Management, and Integration. Lecture Notes in Networks and Systems. (280). P. 46–52. DOI
10. Gura D. A., Dubenko Y. V., Shevchenko G. G., Dyshkant E. E. and Khusht N. I. (2020) Three-dimensional laser scanning for safety of transport infrastructure with application of neural network algorithms and methods of artificial intelligence. Lecture Notes in Civil Engineering (50). P. 185–190. DOI
11. Mozhaev A. N. (2018) Segmentatsiya oblakov tochek s pomoshch’yu sredstv biblioteki point cloud library. Ekstremal’naya robototekhnika. V. 1, No 1. P. 301–308.
12. Belyaevskiy K. O. (2020) Primenenie dinamicheskoy allokatsii na otobrazhaemoy pamyati dlya obrabotki bol’shikh oblakov tochek v biblioteke PCL. Izvestiya Samarskogo nauchnogo tsentra Rossiyskoy akademii nauk. V. 22, No 1 (93). P. 56–64.
13. Stanford 2D-3D-Semantics Dataset (2D-3D-S). URL
14. Arakelov M. S., Lipilin D. A. and Dolgova-Shkhalakhova A. V. (2021) Influence of quarantine measures against the new coronavirus infection covid-19 on the state of black sea coastal waters. Geography, Environment, Sustainability. V. 14, No 4. P. 199–204.
15. Dyachenko R. A., Gura D. A., Stepanenko V. E., Samarin S. V. and Bespyatchuk D. A. (2022) On the issue of decision-making on the choice of an optimal route when placing equipment for static measurements. Bulletin of the Voronezh State University. Series: System Analysis and Information Technologies. No. 3. P. 63–72.
16. Gordeev V. A. and Shevchenko G. G. (2021) Statistical procedures for processing small samples. Izvestia of higher educational institutions. Geodesy and aerial photography. V. 65, No 2. P. 152–157.
17. Zhampeissova K., Gura A., Vanina E. and Egorova Z. (2020) Academic performance and cognitive load in mobile learning. International Journal of Interactive Mobile Technologies. V. 14, No 21. P. 78–91.
18. Sakka F., Gura A., Latysheva V., Mamlenkova E. and Kolosova O. (2022) Solving technological, pedagogical, and psychological problems in mobile learning. International Journal of Interactive Mobile Technologies. V. 16, No 2. P. 144–158.
19. Shestak V., Gura A., Borisova U. and Kozlovskaya D. (2021) International Journal of The role of social networks in the organization of the educational process and learning. Interactive Mobile Technologies. V. 15, No 11. P. 96–112.
20. Dyachenko R. A., Chastikova V. A. and Lyakh A. R. (2022) Implementation of evasion attacks on neural networks and methods of their prevention. Electronic network polythematic journal “Scientific works of KubSTU”. No 5. P. 68–77.
Опубликован
2022-12-26
Как цитировать
Дьяченко, Р. А., Косолапов, П. А., & Гура, Д. А. (2022). К вопросу об увеличении производительности машинного обучения на этапе выборки данных при решении задач классификации. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (4), 146-155. https://doi.org/10.17308/sait/1995-5499/2022/4/146-155
Раздел
Интеллектуальные системы, анализ данных и машинное обучение

Наиболее читаемые статьи этого автора (авторов)