Использование методов обучения с подкреплением в задачах медицинской практики
Аннотация
В статье обсуждаются особенности разработки современных методов обучения с подкреплением в задачах медицинской направленности. Методы обучения с подкреплением являются популярным инструментом машинного обучения, применяемым в задачах поиска оптимальных стратегий лечения пациентов, персонализированной медицины, а также интерактивных систем наблюдения за пациентами. При этом важной задачей является выбор оптимального алгоритма обучения с подкреплением из множества существующих на данный момент методов, обладающих своей спецификой применения, преимуществами и недостатками. Данная статья посвящена анализу алгоритмического аппарата наиболее популярных методов обучения с подкреплением и содержит примеры результатов работы рассматриваемых методов в контексте задачи поиска оптимальных схем лечения для кардиологических пациентов.
Скачивания
Литература
2. Wang L., Zhang W., He X. and Zha H. (2018). Supervised Reinforcement Learning with Recurrent Neural Network for Dynamic Treatment Recommendation. arXiv:1807.01473. [online]
URL
3. Liu N., Liu Y., Logan B., Xu Z., Tang J. and Wang Y. (2019). Learning the Dynamic Treatment Regimes from Medical Registry Data through Deep Q-network. Scientific Reports. 9(1).
4. Istepanian R.S.H. and Al-Anzi T. (2018). m-Health 2.0: New perspectives on mobile health, machine learning and big data analytics. Methods. 151. P. 34–40.
5. Sutton R. and Barto A. G. (2020). Reinforcement learning: introduction. 552 p. (In Russian)
6. Pineau J., Guez A., Vincent R., Panuccio G. and Avoli M. (2009). Treating epilepsy via adaptive neurostimulation: a reinforcement learning approach. International Journal of Neural Systems. 19(04). P. 227–240.
7. Komorowski M., Celi L. A., Badawi O., Gordon A. C. and Faisal A. A. (2018). The Artificial Intelligence Clinician learns optimal treatment strategies for sepsis in intensive care. Nature Medicine, [online] 24(11). P. 1716–1720. URL
8. Utomo C. P., Li X. and Chen W. (2018). Treatment Recommendation in Critical Care: A Scalable and Interpretable Approach in Partially Observable Health States. ICIS 2018 Proceedings.[online] URL
9. Jaimes L. G., Llofriu M. and Raij A. (2015). CALMA, an algorithm framework for mobile just in time interventions. SoutheastCon 2015.
10. Sutton R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning. 3(1). P. 9–44.
11. Rummery G. and Niranjan Mahesan. (1994). On-Line Q-Learning Using Connectionist Systems. Technical Report CUED/F-INFENG/TR 166.
12. Noori A., Sadrnia M. A., Sistani M. and Bagher N. (2017). Glucose level control using Temporal Difference methods. [online] IEEE Xplore. URL
13. Gaweda A. E., Muezzinoglu M. K., Aronoff G. R., Jacobs A. A., Zurada J. M. and Brier M. E. (n.d.). Reinforcement learning approach to individualization of chronic pharmacotherapy.
Proceedings. 2005 IEEE International Joint Conference on Neural Networks, 2005.
14. Watkins C.J.C.H. (1989). Learning from delayed rewards. P. 234.
15. Baniya A. (2018). Adaptive Interventions Treatment Modelling and Regimen Optimization Using Sequential Multiple Assignment Randomized Trials (Smart) and Q-Learning. p.107.
16. Ngo P. D., Wei S., Holubová A., Muzik J. and Godtliebsen F. (2018). Control of Blood Glucose for Type-1 Diabetes by Using Reinforcement Learning with Feedforward Algorithm. Computational and Mathematical Methods in Medicine. 2018. P. 1–8.
17. Krakow E. F., Hemmer M., Wang T., Logan B., Arora M., Spellman S., Couriel D., Alousi A., Pidala J., Last M., Lachance S. and Moodie E.E.M. (2017). Tools for the Precision Medicine Era: How to Develop Highly Personalized Treatment Recommendations From Cohort and Registry Data Using Q-Learning. American Journal of Epidemiology. 186(2). P. 160–172.
18. Seijen H. van, Hasselt H. van, Whiteson S. and Wiering M. (2009). A Theoretical and Empirical Analysis of Expected Sarsa. Proceedings of the IEEE Symposium on Adaptive Dynamic Pro-
gramming and Reinforcement Learning: ADPRL. [online] URL
19. Johnson A., Pollard T., Shen L., Lehman L.-W., Feng M., Ghassemi M., Moody B., Szolovits P., Celi L. and Mark R. (2016). OPEN SUBJECT CATEGORIES Background & Summary. [online] URL
20. Demchenko M. V., Kashirina I. L. and Firyulina М. А. (2021). Clustering of patients’ states for the development of atherosclerosis treatment model. Proceedings of VSU. Series: Systems analysis and information technologies. (2). P. 126–137.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).