Градиентный бустинг для предсказания газохроматографических индексов удерживания
DOI:
https://doi.org/10.17308/sorpchrom.2019.19/2223Ключевые слова:
газовая хроматография, индекс удерживания, машинное обучение, градиентный бустинг.Аннотация
Оценка газохроматографических индексов удерживания исходя из структур молекул является
важной задачей. Предсказанные индексы удерживания могут быть использованы при идентификации
неизвестных соединений посредством поиска по масс-спектральным базам данных. Разнообразные
методы машинного обучения используются для этой задачи, однако, методы, основанные на деревьях
решений, в частности градиентный бустинг (gradient boosting), не часто используются для этой цели.
Цель этой работы – изучить возможность использования этого метода для предсказания индекса
удерживания. 177 молекулярных дескрипторов, рассчитанных с помощью Chemistry Development Kit,
используются в качестве входного представления молекулы. Случайные подмножества всей базы
данных NIST 17 используются в качестве наборов данных для обучения, тестирования и валидации.
Используется 8000 деревьев решений, имеющих по 6 листьев (конечных узлов) каждое. Нейронная
сеть с одним скрытым слоем, состоящим из 90 скрытых нейронов, используется для сравнения. И
нейронная сеть, и градиентный бустинг используются с одним и тем же набором молекулярных дескрипторов и одними и теми же наборами данных. Модель, основанная на градиентном бустинге, превосходит нейронную сеть с одним скрытым слоем для подмножеств NIST 17 и для набора эфирных
масел. Основанная на градиентном бустинге модель сопоставима или даже превосходит по точности
другие современные модели предсказания индексов удерживания, описанные в литературе. Среднее
относительное отклонение составляет ~3.0%, медианное относительное отклонение составляет ~1.7% для подмножеств NIST 17. Среднее абсолютное отклонение составляет ~34 единицы индекса удерживания. Рассмотрены только неполярные жидкие неподвижные фазы (такие как полидиметилсилоксан, 5% фенил 95% полидиметилсилоксан, сквалан). В ходе данной работы не делалось различия между различными видами неполярных жидких фаз. Ошибки, полученные с помощью разных методов машинного обучения и одинакового набора дескрипторов, сильно коррелируют между собой









