Градиентный бустинг для предсказания газохроматографических индексов удерживания

  • Dmitriy D. Matyushin Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва
  • Anastasia Yu. Sholokhova Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва
  • Aleksey K. Buryak Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва
Ключевые слова: газовая хроматография, индекс удерживания, машинное обучение, градиентный бустинг.

Аннотация

Оценка газохроматографических индексов удерживания исходя из структур молекул является
важной задачей. Предсказанные индексы удерживания могут быть использованы при идентификации
неизвестных соединений посредством поиска по масс-спектральным базам данных. Разнообразные
методы машинного обучения используются для этой задачи, однако, методы, основанные на деревьях
решений, в частности градиентный бустинг (gradient boosting), не часто используются для этой цели.
Цель этой работы – изучить возможность использования этого метода для предсказания индекса
удерживания. 177 молекулярных дескрипторов, рассчитанных с помощью Chemistry Development Kit,
используются в качестве входного представления молекулы. Случайные подмножества всей базы
данных NIST 17 используются в качестве наборов данных для обучения, тестирования и валидации.
Используется 8000 деревьев решений, имеющих по 6 листьев (конечных узлов) каждое. Нейронная
сеть с одним скрытым слоем, состоящим из 90 скрытых нейронов, используется для сравнения. И
нейронная сеть, и градиентный бустинг используются с одним и тем же набором молекулярных дескрипторов и одними и теми же наборами данных. Модель, основанная на градиентном бустинге, превосходит нейронную сеть с одним скрытым слоем для подмножеств NIST 17 и для набора эфирных
масел. Основанная на градиентном бустинге модель сопоставима или даже превосходит по точности
другие современные модели предсказания индексов удерживания, описанные в литературе. Среднее
относительное отклонение составляет ~3.0%, медианное относительное отклонение составляет ~1.7% для подмножеств NIST 17. Среднее абсолютное отклонение составляет ~34 единицы индекса удерживания. Рассмотрены только неполярные жидкие неподвижные фазы (такие как полидиметилсилоксан, 5% фенил 95% полидиметилсилоксан, сквалан). В ходе данной работы не делалось различия между различными видами неполярных жидких фаз. Ошибки, полученные с помощью разных методов машинного обучения и одинакового набора дескрипторов, сильно коррелируют между собой 

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Dmitriy D. Matyushin, Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва

Матюшин Дмитрий Дмитриевич – м.н.с. лаборатории физико-химических основ хроматографии и хромато-масс-спектрометрии, Институт физической химии и электрохимии имени
А.Н. Фрумкина РАН, Москва

Anastasia Yu. Sholokhova, Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва

Шолохова Анастасия Юрьевна – м.н.с. лаборатории физико-химических основ хроматографии и хромато-масс-спектрометрии, Институт физической химии и электрохимии имени
А.Н. Фрумкина РАН, Москва

Aleksey K. Buryak, Институт физической химии и электрохимии им. А.Н. Фрумкина РАН, Москва

Буряк Алексей Константинович – заведующий лабораторией физико-химических основ
хроматографии и хромато-масс-спектрометрии, проф., д.х.н. Институт физической химии и
элек-трохимии имени А.Н. Фрумкина РАН, Москва

Литература

1. Zellner B.D.A., Bicchi C., Dugo P., Rubiolo P. et al., Flavour Fragr. J., 2008, Vol. 23, No 5, pp. 297-314, DOI: 10.1002/ffj.1887
2. Zhang J., Koo I., Wang B., Gao Q.W. et al., J. Chromatogr. A, 2012, Vol. 1251, pp. 188-193, DOI: 10.1016/j.chroma.2012.06.036
3. Available at: https://chemdata.nist.gov/ (accessed 06 Nov 2019).
4. Buryak A.K., Russ. Chem. Rev., 2002, Vol. 71, No 8, pp. 695-706, DOI:10.1070/RC2002v071n08ABEH000711
5. Matyushin D.D., Buryak A.K., Sorbtionnye I khromatograficheskie protsessy, 2017, Vol.17, No 2, pp. 204-211, DOI:10.17308/sorpchrom.2017.17/372
6. Matyushin D.D., Buryak A.K., J. Anal. Chem., 2019, Vol. 74, Supplement 1, pp. 47-51, DOI: 10.1134/S1061934819070165.
7. Heberger K., J. Chromatogr. A, 2007, Vol. 1158, No 1-2, pp. 273-305, DOI:10.1016/j.chroma.2007.03.108
8. Yap C.W., J. Comput. Chem., 2011, Vol. 32, No 7, pp. 1466-1474, DOI:10.1002/jcc.21707
9. Matyushin D.D., Sholokhova A.Yu., Buryak A.K., J. Chromatogr. A, 2019, Vol. 1607, pp. 460395, DOI:10.1016/j.chroma.2019.460395
10. Rojas C., Duchowicz P.R., Tripaldi P., Diez R.P., Chemom. Intell. Lab. Syst., 2015, Vol. 140, pp. 126-132, DOI:10.1016/j.chemolab.2014.09.020
11. Kumari S., Stevens D., Kind T., Denkert C. et al., Anal. Chem., 2011, Vol. 83, No 15, pp. 5895–5902, DOI: 10.1021/ac2006137
12. Chen H.F., Anal. Chim. Acta, 2008, Vol. 609, No 1, pp. 24-36, DOI:10.1016/j.aca.2008.01.003
13. Mikhaleva V.V., Verhoeven H.A., De Vos R.C.H., van Ham R.C., Bioinformatics, 2009, Vol. 25, No 6, pp. 787-794, DOI:
10.1093/bioinformatics/btp056
14. Dossin E., Martin E., Diana P., Castellon A. et al., Anal. Chem., 2016, Vol. 88, No. 15, pp. 7539–7547, DOI:10.1021/acs.analchem.6b00868
15. Qiu F., Lei Z., Sumner L.W., Anal. Chim. Acta, 2018, Vol. 1037, pp. 316-326, DOI:10.1016/j.aca.2018.03.052
16. Roe B.P., Yang H.-J., Zhu J., Liu Y. et al.,Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers,
Detectors and Associated Equipment, 2005, Vol. 543, No 2-3, pp. 577-584, DOI:10.1016/j.nima.2004.12.018
17. Natekin A., Knoll A., Frontiers in neurorobotics, 2013, Vol. 7, pp. 21, DOI:10.3389/fnbot.2013.00021
18. Available at: https://haifengl.github.io/ (accessed 28 Nov 2019).
19. Jennings W., Qualitative Analysis of Flavor and Fragrance Volatiles by Glass Capillary Gas Chromatography, London, Academic Press,
INC, 1980, 472 p.
20. Adams R.P., Identification of Essential Oil Components by Gas Chromatography – Mass Spectrometry, 4th edition, USA, Allured publishing
corporation, Carol Stream, 2007, Vol. 456, 804 p.
21. Willighagen E.L., Mayfield J.W., Alvarsson J., Berg A. et al., J. Cheminformatics, 2017, Vol. 9, No 1, p. 33, DOI: 10.1186/s13321-017-0220-4
22. Available at: http://deeplearning4j.org (accessed 06 Nov 2019).
Опубликован
2019-12-05
Как цитировать
Matyushin, D. D., Sholokhova, A. Y., & Buryak, A. K. (2019). Градиентный бустинг для предсказания газохроматографических индексов удерживания. Сорбционные и хроматографические процессы, 19(6), 630-635. https://doi.org/10.17308/sorpchrom.2019.19/2223