TY - JOUR AU - Dmitriy D. Matyushin AU - Anastasia Yu. Sholokhova AU - Aleksey K. Buryak PY - 2019/12/05 Y2 - 2024/03/29 TI - Градиентный бустинг для предсказания газохроматографических индексов удерживания JF - Сорбционные и хроматографические процессы JA - sorpchrom VL - 19 IS - 6 SE - DO - 10.17308/sorpchrom.2019.19/2223 UR - https://journals.vsu.ru/sorpchrom/article/view/2223 AB - Оценка газохроматографических индексов удерживания исходя из структур молекул являетсяважной задачей. Предсказанные индексы удерживания могут быть использованы при идентификациинеизвестных соединений посредством поиска по масс-спектральным базам данных. Разнообразныеметоды машинного обучения используются для этой задачи, однако, методы, основанные на деревьяхрешений, в частности градиентный бустинг (gradient boosting), не часто используются для этой цели.Цель этой работы – изучить возможность использования этого метода для предсказания индексаудерживания. 177 молекулярных дескрипторов, рассчитанных с помощью Chemistry Development Kit,используются в качестве входного представления молекулы. Случайные подмножества всей базыданных NIST 17 используются в качестве наборов данных для обучения, тестирования и валидации.Используется 8000 деревьев решений, имеющих по 6 листьев (конечных узлов) каждое. Нейроннаясеть с одним скрытым слоем, состоящим из 90 скрытых нейронов, используется для сравнения. Инейронная сеть, и градиентный бустинг используются с одним и тем же набором молекулярных дескрипторов и одними и теми же наборами данных. Модель, основанная на градиентном бустинге, превосходит нейронную сеть с одним скрытым слоем для подмножеств NIST 17 и для набора эфирныхмасел. Основанная на градиентном бустинге модель сопоставима или даже превосходит по точностидругие современные модели предсказания индексов удерживания, описанные в литературе. Среднееотносительное отклонение составляет ~3.0%, медианное относительное отклонение составляет ~1.7% для подмножеств NIST 17. Среднее абсолютное отклонение составляет ~34 единицы индекса удерживания. Рассмотрены только неполярные жидкие неподвижные фазы (такие как полидиметилсилоксан, 5% фенил 95% полидиметилсилоксан, сквалан). В ходе данной работы не делалось различия между различными видами неполярных жидких фаз. Ошибки, полученные с помощью разных методов машинного обучения и одинакового набора дескрипторов, сильно коррелируют между собой  ER -