Градиентный бустинг для предсказания газохроматографических индексов удерживания
Аннотация
Оценка газохроматографических индексов удерживания исходя из структур молекул является
важной задачей. Предсказанные индексы удерживания могут быть использованы при идентификации
неизвестных соединений посредством поиска по масс-спектральным базам данных. Разнообразные
методы машинного обучения используются для этой задачи, однако, методы, основанные на деревьях
решений, в частности градиентный бустинг (gradient boosting), не часто используются для этой цели.
Цель этой работы – изучить возможность использования этого метода для предсказания индекса
удерживания. 177 молекулярных дескрипторов, рассчитанных с помощью Chemistry Development Kit,
используются в качестве входного представления молекулы. Случайные подмножества всей базы
данных NIST 17 используются в качестве наборов данных для обучения, тестирования и валидации.
Используется 8000 деревьев решений, имеющих по 6 листьев (конечных узлов) каждое. Нейронная
сеть с одним скрытым слоем, состоящим из 90 скрытых нейронов, используется для сравнения. И
нейронная сеть, и градиентный бустинг используются с одним и тем же набором молекулярных дескрипторов и одними и теми же наборами данных. Модель, основанная на градиентном бустинге, превосходит нейронную сеть с одним скрытым слоем для подмножеств NIST 17 и для набора эфирных
масел. Основанная на градиентном бустинге модель сопоставима или даже превосходит по точности
другие современные модели предсказания индексов удерживания, описанные в литературе. Среднее
относительное отклонение составляет ~3.0%, медианное относительное отклонение составляет ~1.7% для подмножеств NIST 17. Среднее абсолютное отклонение составляет ~34 единицы индекса удерживания. Рассмотрены только неполярные жидкие неподвижные фазы (такие как полидиметилсилоксан, 5% фенил 95% полидиметилсилоксан, сквалан). В ходе данной работы не делалось различия между различными видами неполярных жидких фаз. Ошибки, полученные с помощью разных методов машинного обучения и одинакового набора дескрипторов, сильно коррелируют между собой
Скачивания
Литература
2. Zhang J., Koo I., Wang B., Gao Q.W. et al., J. Chromatogr. A, 2012, Vol. 1251, pp. 188-193, DOI: 10.1016/j.chroma.2012.06.036
3. Available at: https://chemdata.nist.gov/ (accessed 06 Nov 2019).
4. Buryak A.K., Russ. Chem. Rev., 2002, Vol. 71, No 8, pp. 695-706, DOI:10.1070/RC2002v071n08ABEH000711
5. Matyushin D.D., Buryak A.K., Sorbtionnye I khromatograficheskie protsessy, 2017, Vol.17, No 2, pp. 204-211, DOI:10.17308/sorpchrom.2017.17/372
6. Matyushin D.D., Buryak A.K., J. Anal. Chem., 2019, Vol. 74, Supplement 1, pp. 47-51, DOI: 10.1134/S1061934819070165.
7. Heberger K., J. Chromatogr. A, 2007, Vol. 1158, No 1-2, pp. 273-305, DOI:10.1016/j.chroma.2007.03.108
8. Yap C.W., J. Comput. Chem., 2011, Vol. 32, No 7, pp. 1466-1474, DOI:10.1002/jcc.21707
9. Matyushin D.D., Sholokhova A.Yu., Buryak A.K., J. Chromatogr. A, 2019, Vol. 1607, pp. 460395, DOI:10.1016/j.chroma.2019.460395
10. Rojas C., Duchowicz P.R., Tripaldi P., Diez R.P., Chemom. Intell. Lab. Syst., 2015, Vol. 140, pp. 126-132, DOI:10.1016/j.chemolab.2014.09.020
11. Kumari S., Stevens D., Kind T., Denkert C. et al., Anal. Chem., 2011, Vol. 83, No 15, pp. 5895–5902, DOI: 10.1021/ac2006137
12. Chen H.F., Anal. Chim. Acta, 2008, Vol. 609, No 1, pp. 24-36, DOI:10.1016/j.aca.2008.01.003
13. Mikhaleva V.V., Verhoeven H.A., De Vos R.C.H., van Ham R.C., Bioinformatics, 2009, Vol. 25, No 6, pp. 787-794, DOI:
10.1093/bioinformatics/btp056
14. Dossin E., Martin E., Diana P., Castellon A. et al., Anal. Chem., 2016, Vol. 88, No. 15, pp. 7539–7547, DOI:10.1021/acs.analchem.6b00868
15. Qiu F., Lei Z., Sumner L.W., Anal. Chim. Acta, 2018, Vol. 1037, pp. 316-326, DOI:10.1016/j.aca.2018.03.052
16. Roe B.P., Yang H.-J., Zhu J., Liu Y. et al.,Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers,
Detectors and Associated Equipment, 2005, Vol. 543, No 2-3, pp. 577-584, DOI:10.1016/j.nima.2004.12.018
17. Natekin A., Knoll A., Frontiers in neurorobotics, 2013, Vol. 7, pp. 21, DOI:10.3389/fnbot.2013.00021
18. Available at: https://haifengl.github.io/ (accessed 28 Nov 2019).
19. Jennings W., Qualitative Analysis of Flavor and Fragrance Volatiles by Glass Capillary Gas Chromatography, London, Academic Press,
INC, 1980, 472 p.
20. Adams R.P., Identification of Essential Oil Components by Gas Chromatography – Mass Spectrometry, 4th edition, USA, Allured publishing
corporation, Carol Stream, 2007, Vol. 456, 804 p.
21. Willighagen E.L., Mayfield J.W., Alvarsson J., Berg A. et al., J. Cheminformatics, 2017, Vol. 9, No 1, p. 33, DOI: 10.1186/s13321-017-0220-4
22. Available at: http://deeplearning4j.org (accessed 06 Nov 2019).