Использование методов обучения с подкреплением в задачах медицинской практики

Мария Владиславовна Демченко; Ирина Леонидовна Каширина; Мария Андреевна Фирюлина

doi:10.17308/sait.2022.1/9206

Мария Владиславовна Демченко Воронежский государственный университет https://orcid.org/0000-0002-6439-8957
Ирина Леонидовна Каширина Воронежский государственный университет https://orcid.org/0000-0002-8664-9817
Мария Андреевна Фирюлина Воронежский государственный университет https://orcid.org/0000-0003-3468-5514

DOI: https://doi.org/10.17308/sait.2022.1/9206

Ключевые слова: обучение с подкреплением, марковский процесс, динамическое программирование, уравнение Беллмана, итерация по стратегиям, итерация по значениям, Монте-Карло, метод временных различий, SARSA, Q-Learning

Аннотация

В статье обсуждаются особенности разработки современных методов обучения с подкреплением в задачах медицинской направленности. Методы обучения с подкреплением являются популярным инструментом машинного обучения, применяемым в задачах поиска оптимальных стратегий лечения пациентов, персонализированной медицины, а также интерактивных систем наблюдения за пациентами. При этом важной задачей является выбор оптимального алгоритма обучения с подкреплением из множества существующих на данный момент методов, обладающих своей спецификой применения, преимуществами и недостатками. Данная статья посвящена анализу алгоритмического аппарата наиболее популярных методов обучения с подкреплением и содержит примеры результатов работы рассматриваемых методов в контексте задачи поиска оптимальных схем лечения для кардиологических пациентов.

Скачивания

Биографии авторов

Мария Владиславовна Демченко, Воронежский государственный университет

аспирант факультета ПММ Воронежского государственного университета

Ирина Леонидовна Каширина, Воронежский государственный университет

д-р техн. наук, профессор кафедры математических методов исследования операций факультета ПММ Воронежского государственного университета

Мария Андреевна Фирюлина, Воронежский государственный университет

аспирант факультета ПММ Воронежского государственного университета

Литература

1. Martín-Guerrero J. D., Gomez F., Soria-Olivas E., Schmidhuber J., Climente-Martí M. and Jiménez-Torres N. V. (2009). A reinforcement learning approach for individualizing erythropoietin dosages in hemodialysis patients. Expert Systems with Applications. 36(6). P. 9737–9742.
2. Wang L., Zhang W., He X. and Zha H. (2018). Supervised Reinforcement Learning with Recurrent Neural Network for Dynamic Treatment Recommendation. arXiv:1807.01473. [online]
URL
3. Liu N., Liu Y., Logan B., Xu Z., Tang J. and Wang Y. (2019). Learning the Dynamic Treatment Regimes from Medical Registry Data through Deep Q-network. Scientific Reports. 9(1).
4. Istepanian R.S.H. and Al-Anzi T. (2018). m-Health 2.0: New perspectives on mobile health, machine learning and big data analytics. Methods. 151. P. 34–40.
5. Sutton R. and Barto A. G. (2020). Reinforcement learning: introduction. 552 p. (In Russian)
6. Pineau J., Guez A., Vincent R., Panuccio G. and Avoli M. (2009). Treating epilepsy via adaptive neurostimulation: a reinforcement learning approach. International Journal of Neural Systems. 19(04). P. 227–240.
7. Komorowski M., Celi L. A., Badawi O., Gordon A. C. and Faisal A. A. (2018). The Artificial Intelligence Clinician learns optimal treatment strategies for sepsis in intensive care. Nature Medicine, [online] 24(11). P. 1716–1720. URL
8. Utomo C. P., Li X. and Chen W. (2018). Treatment Recommendation in Critical Care: A Scalable and Interpretable Approach in Partially Observable Health States. ICIS 2018 Proceedings.[online] URL
9. Jaimes L. G., Llofriu M. and Raij A. (2015). CALMA, an algorithm framework for mobile just in time interventions. SoutheastCon 2015.
10. Sutton R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning. 3(1). P. 9–44.
11. Rummery G. and Niranjan Mahesan. (1994). On-Line Q-Learning Using Connectionist Systems. Technical Report CUED/F-INFENG/TR 166.
12. Noori A., Sadrnia M. A., Sistani M. and Bagher N. (2017). Glucose level control using Temporal Difference methods. [online] IEEE Xplore. URL
13. Gaweda A. E., Muezzinoglu M. K., Aronoff G. R., Jacobs A. A., Zurada J. M. and Brier M. E. (n.d.). Reinforcement learning approach to individualization of chronic pharmacotherapy.
Proceedings. 2005 IEEE International Joint Conference on Neural Networks, 2005.
14. Watkins C.J.C.H. (1989). Learning from delayed rewards. P. 234.
15. Baniya A. (2018). Adaptive Interventions Treatment Modelling and Regimen Optimization Using Sequential Multiple Assignment Randomized Trials (Smart) and Q-Learning. p.107.
16. Ngo P. D., Wei S., Holubová A., Muzik J. and Godtliebsen F. (2018). Control of Blood Glucose for Type-1 Diabetes by Using Reinforcement Learning with Feedforward Algorithm. Computational and Mathematical Methods in Medicine. 2018. P. 1–8.
17. Krakow E. F., Hemmer M., Wang T., Logan B., Arora M., Spellman S., Couriel D., Alousi A., Pidala J., Last M., Lachance S. and Moodie E.E.M. (2017). Tools for the Precision Medicine Era: How to Develop Highly Personalized Treatment Recommendations From Cohort and Registry Data Using Q-Learning. American Journal of Epidemiology. 186(2). P. 160–172.
18. Seijen H. van, Hasselt H. van, Whiteson S. and Wiering M. (2009). A Theoretical and Empirical Analysis of Expected Sarsa. Proceedings of the IEEE Symposium on Adaptive Dynamic Pro-
gramming and Reinforcement Learning: ADPRL. [online] URL
19. Johnson A., Pollard T., Shen L., Lehman L.-W., Feng M., Ghassemi M., Moody B., Szolovits P., Celi L. and Mark R. (2016). OPEN SUBJECT CATEGORIES Background & Summary. [online] URL
20. Demchenko M. V., Kashirina I. L. and Firyulina М. А. (2021). Clustering of patients’ states for the development of atherosclerosis treatment model. Proceedings of VSU. Series: Systems analysis and information technologies. (2). P. 126–137.