Построение вполне интерпретируемых линейных регрессионных моделей с помощью метода последовательного повышения абсолютных вкладов переменных в общую детерминацию
Аннотация
Статья посвящена проблеме построения вполне интерпретируемых линейных регрессионных моделей, оцениваемых с помощью метода наименьших квадратов. Линейная регрессия называется вполне интерпретируемой, если знаки её коэффициентов соответствуют физическому смыслу входящих в уравнение факторов, а эффект мультиколлинеарности незначителен. При этом желательно, чтобы модель обладала высоким качеством аппроксимации, а все её коэффициенты были значимы. В статье впервые сформулирована задача частично-булевого линейного программирования для выбора в линейной регрессии оптимального числа информативных регрессоров, знаки коэффициентов при которых согласуются со знаками соответствующих коэффициентов их корреляции с зависимой переменной, а абсолютные вклады переменных в общую детерминацию не меньше заданного числа. Эффективность решения этой задачи обусловлена наличием ограничений на согласованность знаков коэффициентов модели, а ограничения на абсолютные вклады переменных позволяют контролировать эффект мультиколлинеарности. Разработан метод последовательного повышения абсолютных вкладов переменных в общую детерминацию, гарантирующий построение вполне интерпретируемой линейной регрессии. Для решения сформулированных задач разработана программа ВИнтер-1. Сначала с помощью неё на обычном персональном компьютере решалась довольно сложная вычислительная задача, решение которой методом полного перебора требует оценки примерно 16,5 квадриллионов моделей. Программа Винтер-1 справилась с этой задачей примерно за 293 секунды, что подтверждает её эффективность. Помимо этого с помощью ВИнтер-1 была построена вполне интерпретируемая модель грузоперевозок железнодорожного транспорта в Иркутской области.
Скачивания
Литература
2. Westfall P. H. and Arias A. L. (2020) Understanding regression analysis: a conditional distribution approach. Chapman and Hall/CRC. 514 p. DOI
3. Noskov S. I. (1996) Technology for modeling objects with unstable functioning and uncertainty in data. Irkutsk: Oblinformpechat’. 320 p.
4. Molnar C. (2020) Interpretable machine learning. Lulu. com.
5. Dolgy A. I. and Kovalev S. M. (2018) Interpretability of fuzzy temporal models. Izvestiya SFedU. Engineering Sciences. No 5 (199). P. 131–142.
6. Adilova F. T., Davronov R. R., Jamilov U. U. and Kayumov O. A. (2018) Practice and potential for the development of the interpretability of quantitative «structure-activity» models (QSAR). Problems of Computational and Applied Mathematics. No 5. P. 7–26.
7. Kreines M. G. and Kreines E. M. (2020) Matrix text models. Interpretation and experimental verification of models. Matematicheskoe modelirovanie. V. 32, No 7. P. 24–46. DOI
8. Koroteev M. V. (2018) Review of some contemporary trends in machine learning technology. E-Management. V. 1, No 1. P. 26–35.
9. Mokshina S. I., Shurshikova G. V. and Shchekunskih S. S. (2017) The construction method of meaningful interpreted regression models in conditions of multicollinearity. Sovremennaya ekonomika: problemy i resheniya. V. 5.
10. Gorbach A. N. and Tseytlin N. A. (2011) Buying behavior: an analysis of spontaneous sequences and regression models in marketing research. Kyiv: Education of Ukraine.
11. Bazilevskiy M. P. (2021) A program for constructing of quite interpretable and RTF-adequate linear regression models. Systems and Means of Informatics. V. 31, No 4. P. 18–26. DOI
12. Giacalone M., Panarello D. and Mattera R. (2018) Multicollinearity in regression: an efficiency comparison between Lp-norm and least squares estimators. Quality & Quantity. V. 52, No 4. P. 1831–1859. DOI
13. Tamura R., Kobayashi K., Takano Y., Miyashiro R., Nakata K. and Matsui T. (2019) Mixed integer quadratic optimization formulations for eliminating multicollinearity based on variance inflation factor. Journal of Global Optimization. V. 73, No 2. P. 431–446. DOI
14. Bazilevskiy M. P. (2018) Reduction the problem of selecting informative regressors when estimating a linear regression model by the method of least squares to the problem of partial-Boolean linear programming. Modeling, optimization and information technology. V. 6, No 1 (20). P. 108–117.
15. Bazilevskiy M. P. (2021) Selection of informative regressors significant by Student’s t-test in regression models estimated using OLS as a partial Boolean linear programming problem. Proceedings of VSU, series: System analysis and information technologies. No 3. P. 5–16. DOI
16. Bazilevskiy M. P. (2022) Method foe the M parameter determination in 0-1 mixed-integer linear programming problem for subset selection in linear regression. Bulletin of the Technological University. V. 25, No 2. P. 62–66.
17. Konno H. and Yamamoto R. (2009) Choosing the best set of variables in regression analysis using integer programming. Journal of global optimization. V. 44. P. 273–282. DOI
18. Emmert-Streib F. and Dehmer M. (2019) High-dimensional LASSO-based computational regression models: regularization, shrinkage, and selection. Machine Learning and Knowledge Extraction. V. 1, No 1. P. 359–383. DOI
19. Noskov S. I. and Perfilieva K. S. (2021) Application of the mixed estimation method in modeling the loading volume in railway transport. Proceedings of TSU. Technical sciences. No 2. P. 148–153.
20. Noskov S. I. and Vrublevskiy I. P. (2020) Analysis of the regression model of railway freight turnover. Vestnik transporta Povolzhya. No 1 (79). P. 86–90.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).