Отбор значимых по критерию Стьюдента информативных регрессоров в оцениваемых с помощью МНК регрессионных моделях как задача частично-булевого линейного программирования

  • Михаил Павлович Базилевский Иркутский государственный университет путей сообщения https://orcid.org/0000-0002-3253-5697
Ключевые слова: регрессионная модель, стандартизованная регрессия, отбор информативных регрессоров, мультиколлинеарность, t-критерий Стьюдента, коэффициент детерминации, задача частично-булевого линейного программирования

Аннотация

Настоящая статья посвящена проблеме отбора фиксированного числа информативных регрессоров в оцениваемых с помощью метода наименьших квадратов линейных регрессионных моделях. В современных научных работах для решения этой задачи применяется хорошо развитый за последние годы аппарат целочисленного математического программирования. В большинстве этих работ задача отбора регрессоров формализована в виде задач частично-квадратичного линейного программирования. Относительно недавно начали появляться статьи, в которых авторы стремятся сформулировать единую задачу математического программирования, которая параллельно с отбором факторов гарантирует построение регрессии, удовлетворяющей различным статистических тестам. Данная работа является логическим продолжением предыдущих статей автора, в которых задача отбора информативных регрессоров формализована в виде задачи частично-булевого линейного, а не квадратичного, программирования. Ранее уже были рассмотрены способы контроля в этой задаче степени мультиколлинеарности. В данной статье с помощью известного подхода к определению наблюдаемых значений t-критерия Стьюдента, основанного на вычислении частных F-критериев, в упомянутую задачу частично-булевого линейного программирования были интегрированы линейные ограничения на степень значимости коэффициентов регрессии. Сформулирована двухкритериальная задача, позволяющая строить модель с позиции соотношения «качество — значимость», и трехкритериальная задача, осуществляющая построение регрессии с позиции соотношения «качество — мультиколлинеарность — значимость». Успешно проведены вычислительные эксперименты, подтверждающие корректность предложенного математического аппарата.

Скачивания

Данные скачивания пока не доступны.

Биография автора

Михаил Павлович Базилевский, Иркутский государственный университет путей сообщения

канд. техн. наук, доцент, доцент кафедры математики Иркутского государственного университета путей сообщения

Литература

1. Desboulets L.D.D. (2018) A review on variable selection in regression analysis. Econometrics. V. 6. P. 1–27. DOI
2. Noskov S. I. (1996) Technology for modeling objects with unstable functioning and uncertainty in data. Irkutsk: Oblinformpechat’ . 320 p.
3. Bazilevskiy M. P., Noskov S. I. (2017) A software package for constructing a linear regression model taking into account the criterion of consistency of the behavior of the actual and calculated trajectories of change in the values of the explained variable. Proceedings of Irkutsk State Technical University. V. 128. No. 9. P. 37–44.
4. Konno H., Yamamoto R. (2009) Choosing the best set of variables in regression analysis using integer programming. Journal of global optimization. V. 44. P. 273–282. DOI
5. Bertsimas D., King A., Mazumder R. (2016) Best subset selection via a modern optimizations lens. The Annals of Statistics. V. 44. P. 813–852. DOI
6. Miyashiro R., Takano Y. (2015) Mixed integer second-order cone programming formulations for variable selection in linear regression. European Journal of Operational Research. V. 247. P. 721–731. DOI
7. Miyashiro R., Takano Y. (2015) Subset selection by Mallows’ Cp: a mixed integer programming approach. Expert Systems with Applications. V. 42. P. 325–331. DOI
8. Park Y.W., Klabjan D. (2020) Subset selection for multiple linear regression via optimization. Journal of Global Optimization. V. 77. P. 543–574. DOI
9. Chung S., Park Y.W., Cheong T. (2020) A mathematical programming approach for integrated multiple linear regression subset selection and validation. Pattern Recognition. V. 108. P. 107565. DOI
10. Bertsimas D., Li M. L. (2020) Scalable holistic linear regression. Operations Research Letters. V. 48, No. 3. P. 203-208. DOI
11. Bazilevskiy M. P. (2018) Reduction of the informative regressor selection problem in estimating a linear regression model using the least squares method to a partial Boolean linear programming problem. Modeling, optimization and information technology. V. 20, No.1. P. 108-117.
12. Bazilevskiy M. P. (2018) Selection of informative regressors taking into account the multicollinearity between them in regression models as a partial Boolean linear programming problem. Modeling, optimization and information technology. V. 21, No. 2. P. 104–118.
13. Bazilevskiy M. P. (2020) Selection of the optimal number of informative regressors by the adjusted coefficient of determination in regression models as a problem of partially integer linear programming. Applied Mathematics and Control Sciences. No. 2. P. 41–54.
14. Eliseeva I. I. et al. (2007) Econometrics. Moscow: Finance and Statistics. 576 p.
15. Kremer N. Sh., Putko B. A. (2010) Econometrics. Moscow: UNITY-DANA. 328 p.
Опубликован
2021-12-02
Как цитировать
Базилевский, М. П. (2021). Отбор значимых по критерию Стьюдента информативных регрессоров в оцениваемых с помощью МНК регрессионных моделях как задача частично-булевого линейного программирования. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (3), 5-16. https://doi.org/10.17308/sait.2021.3/3731
Раздел
Математические методы системного анализа и управления