@article{Matyushin_Sholokhova_Buryak_2019, title={Градиентный бустинг для предсказания газохроматографических индексов удерживания}, volume={19}, url={https://journals.vsu.ru/sorpchrom/article/view/2223}, DOI={10.17308/sorpchrom.2019.19/2223}, abstractNote={<p>Оценка газохроматографических индексов удерживания исходя из структур молекул является<br>важной задачей. Предсказанные индексы удерживания могут быть использованы при идентификации<br>неизвестных соединений посредством поиска по масс-спектральным базам данных. Разнообразные<br>методы машинного обучения используются для этой задачи, однако, методы, основанные на деревьях<br>решений, в частности градиентный бустинг (gradient boosting), не часто используются для этой цели.<br>Цель этой работы – изучить возможность использования этого метода для предсказания индекса<br>удерживания. 177 молекулярных дескрипторов, рассчитанных с помощью Chemistry Development Kit,<br>используются в качестве входного представления молекулы. Случайные подмножества всей базы<br>данных NIST 17 используются в качестве наборов данных для обучения, тестирования и валидации.<br>Используется 8000 деревьев решений, имеющих по 6 листьев (конечных узлов) каждое. Нейронная<br>сеть с одним скрытым слоем, состоящим из 90 скрытых нейронов, используется для сравнения. И<br>нейронная сеть, и градиентный бустинг используются с одним и тем же набором молекулярных дескрипторов и одними и теми же наборами данных. Модель, основанная на градиентном бустинге, превосходит нейронную сеть с одним скрытым слоем для подмножеств NIST 17 и для набора эфирных<br>масел. Основанная на градиентном бустинге модель сопоставима или даже превосходит по точности<br>другие современные модели предсказания индексов удерживания, описанные в литературе. Среднее<br>относительное отклонение составляет ~3.0%, медианное относительное отклонение составляет ~1.7%&nbsp;для подмножеств NIST 17. Среднее абсолютное отклонение составляет ~34 единицы индекса удерживания. Рассмотрены только неполярные жидкие неподвижные фазы (такие как полидиметилсилоксан,&nbsp;5% фенил 95% полидиметилсилоксан, сквалан). В ходе данной работы не делалось различия между&nbsp;различными видами неполярных жидких фаз. Ошибки, полученные с помощью разных методов машинного обучения и одинакового набора дескрипторов, сильно коррелируют между собой&nbsp;</p&gt;}, number={6}, journal={Сорбционные и хроматографические процессы}, author={Matyushin, Dmitriy D. and Sholokhova, Anastasia Yu. and Buryak, Aleksey K.}, year={2019}, month={дек.}, pages={630-635} }