Алгоритмы построения неэлементарных линейных регрессий методом включения

  • Михаил Павлович Базилевский Иркутский государственный университет путей сообщения https://orcid.org/0000-0002-3253-5697
Ключевые слова: регрессионный анализ, отбор информативных регрессоров, неэлементарная линейная регрессия, метод включения, алгоритм, безработица

Аннотация

Статья посвящена решению проблемы выбора наиболее информативных регрессоров в неэлементарных линейных регрессиях, включающих в себя в общем случае не только объясняющие переменные, но и все возможные комбинации их пар, преобразованные с помощью бинарных операций min и max. Известно, что оптимальное решение такой задачи может быть достигнуто методом полного перебора всех возможных моделей. Но даже для линейной регрессии он до сих пор остается самым трудоёмким из всех существующих методов отбора, а для неэлементарных линейных регрессий, в которых число регрессоров на порядок больше, его трудоёмкость значительно возрастает. Известно, что быстро получить хоть и не оптимальное зачастую, но хорошее решение позволяет метод включения регрессоров. Учитывая, что в состав неэлементарных линейных регрессий входят не только объясняющие переменные, но и регрессоры, содержащие внутри себя неизвестные параметры, то такие модели требуют разработки новых алгоритмов метода включения. В данной статье состав регрессоров в неэлементарных линейных регрессиях расширен ещё больше за счёт использования бинарных операций со свободным членом. Предложено два алгоритма метода включения. Первый из них реализуется без корректировки входящих в бинарные операции коэффициентов, а второй – с корректировкой. В этой связи вычислительная сложность второго алгоритма выше, чем у первого, но при этом второй позволяет получать более качественные решения. Тестирование алгоритмов проведено на примере моделирования численности безработных и уровня безработицы в Иркутской области. Наилучшие результаты показал второй алгоритм. Полученные высокоточные модели с пятью регрессорами и с коэффициентами детерминации 0,982 и 0,971 превзошли по качеству даже переобученные полиномиальные регрессии с четырнадцатью регрессорами.

Скачивания

Данные скачивания пока не доступны.

Биография автора

Михаил Павлович Базилевский, Иркутский государственный университет путей сообщения

канд. техн. наук, доцент, доцент кафедры математики Иркутского государственного университета путей сообщения

Литература

1. Montgomery D. C., Peck E. A. and Vining G. G. (2021) Introduction to linear regression analysis. John Wiley & Sons.
2. Darlington R. B. and Hayes A. F. (2016) Regression analysis and linear models: Concepts, applications, and implementation. Guilford Publications.
3. Molnar C. (2020) Interpretable machine learning. Lulu. com.
4. Boateng E. Y. and Abaye D. A. (2019) A review of the logistic regression model with emphasis on medical research. Journal of data analysis and information processing. Vol. 7, No. 4. P. 190–207.
5. Gao Y., Zhao J. and Han L. (2022) Exploring the spatial heterogeneity of urban heat island effect and its relationship to block morphology with the geographically weighted regression model. Sustainable Cities and Society. Vol. 76. P. 103431.
6. Wang X. and Li M. (2022) Determinants of regional economic resilience to economic crisis: Evidence from Chinese economies. Sustainability. Vol. 14, No. 2. P. 809.
7. Miller A. (2002) Subset selection in regression. CRC Press.
8. Chung S., Park Y. W. and Cheong T. (2020) A mathematical programming approach for integrated multiple linear regression subset selection and validation. Pattern Recognition. Vol. 108. P. 107565.
9. Strizhov V. V. and Krymova E. A. (2010) Methods for choosing regression models. Moscow : Computing Center of the Russian Academy of Sciences. 60 p.
10. Bazilevskiy M. P. (2020) Estimation linear non-elementary regression models using ordinary least squares. Modeling, optimization and information technology. Vol. 8, No. 4 (31).
11. Bazilevskiy M. P. (2021) Selection of informative operations in the construction of linear non-elementary regression models. International Journal of Open Information Technologies. Vol. 9, No. 5. P. 30–35.
12. Bazilevskiy M. P. (2022) A method for constructing nonelementary linear regressions based on mathematical programming. Control Sciences. No. 4. P. 3–14.
13. Bazilevskiy M. P. (2022) Ordinary least squares estimation of simple non-elementary linear regressions with a linear argument in a binary operation. Proceedings in Cybernetics. No. 4 (48). P. 69–76.
14. Kamornikov S. F. and Kamornikov S. S. (2012) Econometrics. Moscow : Integration. 262 p.
15. Kas’yanov V. A. (2008) Econometrics. Ekaterinburg.
16. Popova V. B. (2009) Features of regression analysis using the jackknife method. Topical issues of economic sciences. No. 5-5. P. 178–183.
17. Barbysheva G. I. (2015) Building a multifactor model of production profitability. Proceedings of the Southwest State University. Series: Economics. Sociology. Management. No. 3. P. 73–77.
18. Chigirinskiy Yu. L., Chigirinskaya N. V. and Kachalova L. A. (2014) Spreadsheet structure for building multivariate regression models. Proceedings of the Volgograd State Technical University. Vol. 11, No. 8 (135). P. 39–41.
19. Burtiev R. Z. and Kardanets V. Yu. (2020) Principal component model in macroseismicity. Geophysical journal. Vol. 42, No. 5. P. 172–182.
20. Kulentsan A. L. and Marchuk N. A. (2020) Forecasting the number of unemployed in the Primorye territory, Novosibirsk and Sverdlovsk regions. Actual problems of economics and management. No. 2. P. 77–84.
21. Antipina N. V. and Seliverstova M. E. (2021) Formation a Mathematical Modeling of Unemployment Rate in Russian Federation. System Analysis & Mathematical Modeling. Vol. 3, No. 4. P. 243–249.
22. Yusupova S. M. (2020) Correlation-regression analysis of the impact of macroeconomic regional indicators on unemployment in a crisis (on the example of the Saratov region). Economy vector. No. 5. P. 28–28.
Опубликован
2024-05-28
Как цитировать
Базилевский, М. П. (2024). Алгоритмы построения неэлементарных линейных регрессий методом включения. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 104-113. https://doi.org/10.17308/sait/1995-5499/2024/1/104-113
Раздел
Интеллектуальные системы, анализ данных и машинное обучение

Наиболее читаемые статьи этого автора (авторов)