Gradient boosting for the prediction of gas chromatographic retention indices

Dmitriy D. Matyushin; Anastasia Yu. Sholokhova; Aleksey K. Buryak

doi:10.17308/sorpchrom.2019.19/2223

Авторы

Dmitriy D. Matyushin Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва
Anastasia Yu. Sholokhova Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва
Aleksey K. Buryak Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва

DOI:

https://doi.org/10.17308/sorpchrom.2019.19/2223

Ключевые слова:

газовая хроматография, индекс удерживания, машинное обучение, градиентный бустинг.

Аннотация

Оценка газохроматографических индексов удерживания исходя из структур молекул является
важной задачей. Предсказанные индексы удерживания могут быть использованы при идентификации
неизвестных соединений посредством поиска по масс-спектральным базам данных. Разнообразные
методы машинного обучения используются для этой задачи, однако, методы, основанные на деревьях
решений, в частности градиентный бустинг (gradient boosting), не часто используются для этой цели.
Цель этой работы – изучить возможность использования этого метода для предсказания индекса
удерживания. 177 молекулярных дескрипторов, рассчитанных с помощью Chemistry Development Kit,
используются в качестве входного представления молекулы. Случайные подмножества всей базы
данных NIST 17 используются в качестве наборов данных для обучения, тестирования и валидации.
Используется 8000 деревьев решений, имеющих по 6 листьев (конечных узлов) каждое. Нейронная
сеть с одним скрытым слоем, состоящим из 90 скрытых нейронов, используется для сравнения. И
нейронная сеть, и градиентный бустинг используются с одним и тем же набором молекулярных дескрипторов и одними и теми же наборами данных. Модель, основанная на градиентном бустинге, превосходит нейронную сеть с одним скрытым слоем для подмножеств NIST 17 и для набора эфирных
масел. Основанная на градиентном бустинге модель сопоставима или даже превосходит по точности
другие современные модели предсказания индексов удерживания, описанные в литературе. Среднее
относительное отклонение составляет ~3.0%, медианное относительное отклонение составляет ~1.7% для подмножеств NIST 17. Среднее абсолютное отклонение составляет ~34 единицы индекса удерживания. Рассмотрены только неполярные жидкие неподвижные фазы (такие как полидиметилсилоксан, 5% фенил 95% полидиметилсилоксан, сквалан). В ходе данной работы не делалось различия между различными видами неполярных жидких фаз. Ошибки, полученные с помощью разных методов машинного обучения и одинакового набора дескрипторов, сильно коррелируют между собой

Скачивания

Данные по скачиваниям пока не доступны.

Биографии авторов

Dmitriy D. Matyushin, Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва

Матюшин Дмитрий Дмитриевич – м.н.с. лаборатории физико-химических основ хроматографии и хромато-масс-спектрометрии, Институт физической химии и электрохимии имени
А.Н. Фрумкина РАН, Москва
Anastasia Yu. Sholokhova, Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва

Шолохова Анастасия Юрьевна – м.н.с. лаборатории физико-химических основ хроматографии и хромато-масс-спектрометрии, Институт физической химии и электрохимии имени
А.Н. Фрумкина РАН, Москва
Aleksey K. Buryak, Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва

Буряк Алексей Константинович – заведующий лабораторией физико-химических основ
хроматографии и хромато-масс-спектрометрии, проф., д.х.н. Институт физической химии и
элек-трохимии имени А.Н. Фрумкина РАН, Москва