TY - JOUR AU - Роман Александрович Дьяченко AU - Павел Александрович Косолапов AU - Дмитрий Андреевич Гура PY - 2022/12/26 Y2 - 2024/03/29 TI - К вопросу об увеличении производительности машинного обучения на этапе выборки данных при решении задач классификации JF - Вестник ВГУ. Серия: Системный анализ и информационные технологии JA - sait VL - 0 IS - 4 SE - Интеллектуальные системы, анализ данных и машинное обучение DO - 10.17308/sait/1995-5499/2022/4/146-155 UR - https://journals.vsu.ru/sait/article/view/10813 AB - Целью исследования является определение метода хранения данных для задач машинного обучения нейронных сетей и семантической сегментации облаков точек. Рассмотрены существующие способы хранения массивов данных большого размера, проведены экспериментальные исследования для определения быстродействия операции чтения данных. Во время проведения эксперимента была осуществлена подготовка данных, заключающаяся в отборе информации из общей выборки. В качестве критериев отбора выделяются координаты точек, метка класса и количество записей в исходном дата сете. Все необходимые параметры и их структура приведены и описаны в работе. Метки класса, в силу представления исходного дата сета, претерпели некоторое преобразование. После отбора информации была произведена ее конвертация в исследуемые форматы файлов с последующим сохранением для проведения экспериментов. Для проведения исследований были взяты наиболее распространенные форматы файлов, используемые для хранения информации *.csv, *.npy и *.h5. После получения данных для эксперимента последовал этап непосредственно проведения эксперимента. Эксперимент заключался в воспроизведении процесса доступа к информации из предварительно полученных файлов и последующей загрузкой информации на входной слой нейронной сети без процесса обучения. Результатом эксперимента стала статистическая информация о времени чтения файла в зависимости от выбранной структуры и объема хранимой в нем информации. Кроме этого, был подведен итог о целесообразности использования того или иного способа хранения информации в условиях предметной области работы, исходя из принципа работы того или иного формата файла. ER -