Метод смешанного оценивания параметров линейной регрессии: особенности применения

Ключевые слова: линейное регрессионное уравнение, выборка данных, метод смешанного оценивания, городское расстояние, расстояние Чебышева, выбросы

Аннотация

Работа основана на предложенном ранее автором методе смешанного оценивания неизвестных параметров линейного регрессионного уравнения. Этот метод предполагает одновременную минимизацию разных функций потерь на разных участках обрабатываемой выборки данных. Основным достоинством такого подхода является совмещение привлекательных свойств каждого задействованного метода оценивания параметров при обработке одной выборки. В статье рассматриваются способы формирования подвыборок исходной выборки для функций потерь, соответствующих городскому расстоянию и расстоянию Чебышева. Эти функции по-разному реагируют на плохо согласующиеся с выборкой в целом наблюдения — первая их, по существу, игнорирует, вторая, наоборот, к ним крайне чувствительна. Показано, что реализация метода смешанного оценивания для такой комбинированной функции потерь сводится к задаче линейного программирования. При разбиении исходной выборки на подвыборки использованы следующие свойства методов оценивания параметров линейного регрессионного уравнения: метод наименьших модулей обеспечивает равенство числа нулевых ошибок аппроксимации числу параметров; при использовании метода антиробастного оценивания число максимальных по модулю ошибок аппроксимации не меньше числа параметров плюс единица. Рассмотрен численный пример с десятью наблюдениями и тремя независимыми переменными. Сравниваются оценки параметров и значения некоторых частных критериев адкватности при использовании методов наименьших квадратов, модулей, антиробастного и смешанного оценивания. Исходная выборка разбивается при этом на две подвыборки, на одной из которых метод смешанного оценивания тяготеет к игнорированию аномальных наблюдений, а на другой, напротив, неявным образом придает им больший вес, позволяя совместить тем самым преимущества методов наименьших модулей и антиробастного оценивания при использовании на одних данных, в целом способствуя повышению адекватности в их обработке.

Скачивания

Данные скачивания пока не доступны.

Биография автора

Сергей Иванович Носков, Иркутский государственный университет путей сообщения

д-р техн. наук, проф., профессор кафедры «Информационные системы и защита информации» Иркутского государственного университета путей сообщения

Литература

1. Noskov S. I. (2020) Compromise Рareto’s evaluation of parameters linear regression // Mathematical Models and Computer Simulations. No 11. Р.70–78.
2. Draper N. and Smith G. (2007) Applied regression analysis. Multiple Regression. – 3rd ed. Moscow : Dialectics. 912 p.
3. Förster E. and Rönz B. (1981) Methods of correlation and regression analysis. Moscow : Finance and Statistics. 302 p.
4. Ayvazyan S. A. (2001) Applied statistics and foundations of econometrics. Moscow : Unity. 432p.
5. Wynn R. and Holden I. (1981) Introduction to Applied Econometric Analysis. Moscow : Finance and statistics. 294 p.
6. Demidenko E. Z. (1989) Optimization and regression. Moscow : Nauka. 296 p.
7. Demidenko E. Z. (1981) Linear and nonlinear regression. Moscow : Finance and statistics. 302 p.
8. Noskov S. I. (2019) On the method of mixed estimation of linear regression parameters // Information technologies and mathematical modeling in the management of complex systems. No 1. Р. 41–45.
9. Noskov S. I. (1996) A technology for modeling objects with unstable functioning and uncertainty in data. Irkutsk : Oblinformpechat. 320 p.
10. Kuzovlev V. I. and Orlov A. O. (2016) Anomaly detection in predictive data analysis // Bulletin of the Moscow State Technical University. N. E. Bauman. Instrumentation series. No 5. Р. 75–85.
11. Orlov A. O. (2012) The problem of finding the distances between the values of categorical attributes when detecting outliers in the data. No 8-1. Р. 142–155.
12. Kuzovlev V. I. and Orlov A. O. (2013) Methodology for the choice of parameters and interpretation of the results of the analysis of emissions in the data of decision support systems // Engineering journal: science and innovations. No 11. Р. 13.
13. Shesternyak L.V. (2019) Methods for processing the results of a computational experiment // Sustainable Development of Science and Education. No 11. Р. 282–285.
14. Lyutikova L. A. (2018) Construction of a logical algorithm for detecting outliers in noisy data // Modeling, optimization and information technologies. No 4. Р. 132–142.
15. Lakeev A. V. and Noskov S. I. (2012) Least modulus method for linear regression: the number of zero approximation error // Modern technologies. System analysis. Modeling. No 2. Р. 48–50.
16. Noskov S. I. (2020) Method of anti-robust estimation of linear regression parameters: the number of approximation errors maximal in modulus // Yuzhno-Siberian Scientific Bulletin. No 1. Р. 51–54.
Опубликован
2021-04-29
Как цитировать
Носков, С. И. (2021). Метод смешанного оценивания параметров линейной регрессии: особенности применения. Вестник ВГУ. Серия: Системный анализ и информационные технологии, (1), 126-132. https://doi.org/10.17308/sait.2021.1/3377
Раздел
Интеллектуальные системы, анализ данных и машинное обучение