Отбор значимых по критерию Стьюдента информативных регрессоров в оцениваемых с помощью МНК регрессионных моделях как задача частично-булевого линейного программирования
Аннотация
Настоящая статья посвящена проблеме отбора фиксированного числа информативных регрессоров в оцениваемых с помощью метода наименьших квадратов линейных регрессионных моделях. В современных научных работах для решения этой задачи применяется хорошо развитый за последние годы аппарат целочисленного математического программирования. В большинстве этих работ задача отбора регрессоров формализована в виде задач частично-квадратичного линейного программирования. Относительно недавно начали появляться статьи, в которых авторы стремятся сформулировать единую задачу математического программирования, которая параллельно с отбором факторов гарантирует построение регрессии, удовлетворяющей различным статистических тестам. Данная работа является логическим продолжением предыдущих статей автора, в которых задача отбора информативных регрессоров формализована в виде задачи частично-булевого линейного, а не квадратичного, программирования. Ранее уже были рассмотрены способы контроля в этой задаче степени мультиколлинеарности. В данной статье с помощью известного подхода к определению наблюдаемых значений t-критерия Стьюдента, основанного на вычислении частных F-критериев, в упомянутую задачу частично-булевого линейного программирования были интегрированы линейные ограничения на степень значимости коэффициентов регрессии. Сформулирована двухкритериальная задача, позволяющая строить модель с позиции соотношения «качество — значимость», и трехкритериальная задача, осуществляющая построение регрессии с позиции соотношения «качество — мультиколлинеарность — значимость». Успешно проведены вычислительные эксперименты, подтверждающие корректность предложенного математического аппарата.
Скачивания
Литература
2. Noskov S. I. (1996) Technology for modeling objects with unstable functioning and uncertainty in data. Irkutsk: Oblinformpechat’ . 320 p.
3. Bazilevskiy M. P., Noskov S. I. (2017) A software package for constructing a linear regression model taking into account the criterion of consistency of the behavior of the actual and calculated trajectories of change in the values of the explained variable. Proceedings of Irkutsk State Technical University. V. 128. No. 9. P. 37–44.
4. Konno H., Yamamoto R. (2009) Choosing the best set of variables in regression analysis using integer programming. Journal of global optimization. V. 44. P. 273–282. DOI
5. Bertsimas D., King A., Mazumder R. (2016) Best subset selection via a modern optimizations lens. The Annals of Statistics. V. 44. P. 813–852. DOI
6. Miyashiro R., Takano Y. (2015) Mixed integer second-order cone programming formulations for variable selection in linear regression. European Journal of Operational Research. V. 247. P. 721–731. DOI
7. Miyashiro R., Takano Y. (2015) Subset selection by Mallows’ Cp: a mixed integer programming approach. Expert Systems with Applications. V. 42. P. 325–331. DOI
8. Park Y.W., Klabjan D. (2020) Subset selection for multiple linear regression via optimization. Journal of Global Optimization. V. 77. P. 543–574. DOI
9. Chung S., Park Y.W., Cheong T. (2020) A mathematical programming approach for integrated multiple linear regression subset selection and validation. Pattern Recognition. V. 108. P. 107565. DOI
10. Bertsimas D., Li M. L. (2020) Scalable holistic linear regression. Operations Research Letters. V. 48, No. 3. P. 203-208. DOI
11. Bazilevskiy M. P. (2018) Reduction of the informative regressor selection problem in estimating a linear regression model using the least squares method to a partial Boolean linear programming problem. Modeling, optimization and information technology. V. 20, No.1. P. 108-117.
12. Bazilevskiy M. P. (2018) Selection of informative regressors taking into account the multicollinearity between them in regression models as a partial Boolean linear programming problem. Modeling, optimization and information technology. V. 21, No. 2. P. 104–118.
13. Bazilevskiy M. P. (2020) Selection of the optimal number of informative regressors by the adjusted coefficient of determination in regression models as a problem of partially integer linear programming. Applied Mathematics and Control Sciences. No. 2. P. 41–54.
14. Eliseeva I. I. et al. (2007) Econometrics. Moscow: Finance and Statistics. 576 p.
15. Kremer N. Sh., Putko B. A. (2010) Econometrics. Moscow: UNITY-DANA. 328 p.
- Авторы сохраняют за собой авторские права и предоставляют журналу право первой публикации работы, которая по истечении 6 месяцев после публикации автоматически лицензируется на условиях Creative Commons Attribution License , которая позволяет другим распространять данную работу с обязательным сохранением ссылок на авторов оригинальной работы и оригинальную публикацию в этом журнале.
- Авторы имеют право размещать их работу в сети Интернет (например в институтском хранилище или персональном сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению и большему количеству ссылок на данную работу (См. The Effect of Open Access).