Алгоритмы построения неэлементарных линейных регрессий методом включения
Аннотация
Статья посвящена решению проблемы выбора наиболее информативных регрессоров в неэлементарных линейных регрессиях, включающих в себя в общем случае не только объясняющие переменные, но и все возможные комбинации их пар, преобразованные с помощью бинарных операций min и max. Известно, что оптимальное решение такой задачи может быть достигнуто методом полного перебора всех возможных моделей. Но даже для линейной регрессии он до сих пор остается самым трудоёмким из всех существующих методов отбора, а для неэлементарных линейных регрессий, в которых число регрессоров на порядок больше, его трудоёмкость значительно возрастает. Известно, что быстро получить хоть и не оптимальное зачастую, но хорошее решение позволяет метод включения регрессоров. Учитывая, что в состав неэлементарных линейных регрессий входят не только объясняющие переменные, но и регрессоры, содержащие внутри себя неизвестные параметры, то такие модели требуют разработки новых алгоритмов метода включения. В данной статье состав регрессоров в неэлементарных линейных регрессиях расширен ещё больше за счёт использования бинарных операций со свободным членом. Предложено два алгоритма метода включения. Первый из них реализуется без корректировки входящих в бинарные операции коэффициентов, а второй – с корректировкой. В этой связи вычислительная сложность второго алгоритма выше, чем у первого, но при этом второй позволяет получать более качественные решения. Тестирование алгоритмов проведено на примере моделирования численности безработных и уровня безработицы в Иркутской области. Наилучшие результаты показал второй алгоритм. Полученные высокоточные модели с пятью регрессорами и с коэффициентами детерминации 0,982 и 0,971 превзошли по качеству даже переобученные полиномиальные регрессии с четырнадцатью регрессорами.
Скачивания
Литература
2. Darlington R. B. and Hayes A. F. (2016) Regression analysis and linear models: Concepts, applications, and implementation. Guilford Publications.
3. Molnar C. (2020) Interpretable machine learning. Lulu. com.
4. Boateng E. Y. and Abaye D. A. (2019) A review of the logistic regression model with emphasis on medical research. Journal of data analysis and information processing. Vol. 7, No. 4. P. 190–207.
5. Gao Y., Zhao J. and Han L. (2022) Exploring the spatial heterogeneity of urban heat island effect and its relationship to block morphology with the geographically weighted regression model. Sustainable Cities and Society. Vol. 76. P. 103431.
6. Wang X. and Li M. (2022) Determinants of regional economic resilience to economic crisis: Evidence from Chinese economies. Sustainability. Vol. 14, No. 2. P. 809.
7. Miller A. (2002) Subset selection in regression. CRC Press.
8. Chung S., Park Y. W. and Cheong T. (2020) A mathematical programming approach for integrated multiple linear regression subset selection and validation. Pattern Recognition. Vol. 108. P. 107565.
9. Strizhov V. V. and Krymova E. A. (2010) Methods for choosing regression models. Moscow : Computing Center of the Russian Academy of Sciences. 60 p.
10. Bazilevskiy M. P. (2020) Estimation linear non-elementary regression models using ordinary least squares. Modeling, optimization and information technology. Vol. 8, No. 4 (31).
11. Bazilevskiy M. P. (2021) Selection of informative operations in the construction of linear non-elementary regression models. International Journal of Open Information Technologies. Vol. 9, No. 5. P. 30–35.
12. Bazilevskiy M. P. (2022) A method for constructing nonelementary linear regressions based on mathematical programming. Control Sciences. No. 4. P. 3–14.
13. Bazilevskiy M. P. (2022) Ordinary least squares estimation of simple non-elementary linear regressions with a linear argument in a binary operation. Proceedings in Cybernetics. No. 4 (48). P. 69–76.
14. Kamornikov S. F. and Kamornikov S. S. (2012) Econometrics. Moscow : Integration. 262 p.
15. Kas’yanov V. A. (2008) Econometrics. Ekaterinburg.
16. Popova V. B. (2009) Features of regression analysis using the jackknife method. Topical issues of economic sciences. No. 5-5. P. 178–183.
17. Barbysheva G. I. (2015) Building a multifactor model of production profitability. Proceedings of the Southwest State University. Series: Economics. Sociology. Management. No. 3. P. 73–77.
18. Chigirinskiy Yu. L., Chigirinskaya N. V. and Kachalova L. A. (2014) Spreadsheet structure for building multivariate regression models. Proceedings of the Volgograd State Technical University. Vol. 11, No. 8 (135). P. 39–41.
19. Burtiev R. Z. and Kardanets V. Yu. (2020) Principal component model in macroseismicity. Geophysical journal. Vol. 42, No. 5. P. 172–182.
20. Kulentsan A. L. and Marchuk N. A. (2020) Forecasting the number of unemployed in the Primorye territory, Novosibirsk and Sverdlovsk regions. Actual problems of economics and management. No. 2. P. 77–84.
21. Antipina N. V. and Seliverstova M. E. (2021) Formation a Mathematical Modeling of Unemployment Rate in Russian Federation. System Analysis & Mathematical Modeling. Vol. 3, No. 4. P. 243–249.
22. Yusupova S. M. (2020) Correlation-regression analysis of the impact of macroeconomic regional indicators on unemployment in a crisis (on the example of the Saratov region). Economy vector. No. 5. P. 28–28.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).