8 рассчитать доверительные интервалы с надежностью 90 и 95 для параметров уравнения регрессии

Пример нахождения доверительных интервалов коэффициентов регрессии

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Постройте уравнение зависимости экспорта нефти от цены на нефть.

3. Рассчитайте среднюю ошибку аппроксимации и коэффициент детерминации. Оценить статистическую значимость параметров регрессии и уравнения в целом.

4. Оцените полученные результаты, выводы оформите в аналитической записке.

Таблица 5

Цена нефти марки Urals (Россия), долл/барр.

Экспорт нефти и нефтепродуктов, млн.т.

Решение:

Уравнение имеет вид y = ax + b
1. Параметры уравнения регрессии.
Средние значения

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

xyx 2y 2x ∙ yy(x)(y- y ) 2(y-y(x)) 2(x-x p ) 2
119298.121416188875.5335476.28219.63232120.86160.5624362.01
203481.0341209231389.8697649.09521.1689328.761610.265196.01
281539.1278961290650.37151492.72801.1557979.4268658.5135.01
305653.5793025427153.74199338.85887.315961.5954628.94895.01
381987.66145161975472.28376298.461160.1143160.4129738.5711218.34
3631252.851317691569633.12454784.551095.5223673.0324760.357729.34
3891276.881513211630422.53496706.321188.83246980.017753.5712977.01
3871396.701497691950770.89540522.91181.65380430.9346248.0412525.34
315952.0399225906361.12299889.45923.1929625.58831.491593.34
217619.9647089384350.4134531.32571.4125583.742356.853373.67
149384.4022201147763.3657275.6327.32156427.53258.2315897.01
192516.5936864266865.2399185.28481.6769336.981219.246902.84
33019358.9110107558869708.452943150.829358.911570608.75247224.62102704.92

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии

S a = 0.4906
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-587.75;179.86)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика

Статистическая значимость коэффициента регрессии a подтверждается (7.32>1.812)

Статистическая значимость коэффициента регрессии b не подтверждается (1.46 Fkp, то коэффициент детерминации статистически значим.

Доверительные интервалы для зависимой переменной

Уравнение тренда имеет вид y = at 2 + bt + c
1. Находим параметры уравнения методом наименьших квадратов.
Система уравнений

Для наших данных система уравнений имеет вид (см. таблицу).

Получаем a0 = -11.37, a1 = 88.47, a2 = 2151.09
Уравнение тренда: y = -11.37t 2 +88.47t+2151.09
Оценим качество уравнения тренда с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве тренда
Средние значения

т.е. в 87.35 % случаев влияет на изменение данных. Другими словами — точность подбора уравнения тренда — высокая

tyt 2y 2x ∙ yy(t)(y-y cp ) 2(y-y(t)) 2(t-t p ) 2(y-y(t)) : yt 3t 4t 2 y
12225.314951960.092225.32228.1965.60998.352166431.117112225.3
22254.945084574.014509.82282.55462.25764.5225962347.9858169019.6
32332.395439623.296996.92314.179781.21328.6969442284.599278120990.7
42365.8165597009.649463.22323.0517529.761827.56251101137.956425637852.8
52295.4255268861.16114772309.193844190.1641031653.56612562557385
62303.9365307955.2113823.42272.594970.25980.3161172135.109216129682940.4
72166.7494694588.8915166.92213.254448.892166.90254100859.8853432401106168.3
82080.4644328064.1616643.22131.17234092577.59299105621.9085124096133145.6
92075.9814309360.8118683.12026.3524806.252455.202516102860.8457296561168147.9
4520100.628544981997.2698988.820100.5189317.219911299.31260625332.9644050306661235751.2

2. Анализ точности определения оценок параметров уравнения тренда.

Анализ точности определения оценок параметров уравнения тренда

S a = 4.8518
Доверительные интервалы для зависимой переменной

По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (7;0.05) = 1.895
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и t = 6
2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911 ; 2151.09 + 88.47*6 + -11.37*62 — 1.895*39.911
(-55.3814;95.8814)
Интервальный прогноз.
Определим среднеквадратическую ошибку прогнозируемого показателя.

где L — период упреждения; уn+L — точечный прогноз по модели на (n + L)-й момент времени; n — количество наблюдений во временном ряду; Sy — стандартная ошибка прогнозируемого показателя; Tтабл — табличное значение критерия Стьюдента для уровня значимости а и для числа степеней свободы, равного n — 2.
Точечный прогноз, t = 10: y(10) = -11.37*10 2 + 88.47* + 2151.09 = 1898.79
K1 = 247.4924
1898.79 — 247.4924 = 1651.2976 ; 1898.79 + 247.4924 = 2146.2824
t = 10: (1651.2976;2146.2824)
Точечный прогноз, t = 11: y(11) = -11.37*11 2 + 88.47* + 2151.09 = 1748.49
K2 = 261.9213
1748.49 — 261.9213 = 1486.5687 ; 1748.49 + 261.9213 = 2010.4113
t = 11: (1486.5687;2010.4113)
Точечный прогноз, t = 12: y(12) = -11.37*12 2 + 88.47* + 2151.09 = 1575.45
K3 = 278.0099
1575.45 — 278.0099 = 1297.4401 ; 1575.45 + 278.0099 = 1853.4599
t = 12: (1297.4401;1853.4599)
Точечный прогноз, t = 13: y(13) = -11.37*13 2 + 88.47* + 2151.09 = 1379.67
K4 = 295.4871
1379.67 — 295.4871 = 1084.1829 ; 1379.67 + 295.4871 = 1675.1571
t = 13: (1084.1829;1675.1571)
Точечный прогноз, t = 14: y(14) = -11.37*14 2 + 88.47* + 2151.09 = 1161.15
K5 = 314.1213
1161.15 — 314.1213 = 847.0287 ; 1161.15 + 314.1213 = 1475.2713
t = 14: (847.0287;1475.2713)
3. Проверка гипотез относительно коэффициентов линейного уравнения тренда.
1) t-статистика. Критерий Стьюдента.

Статистическая значимость коэффициента уравнения подтверждается

Статистическая значимость коэффициента тренда подтверждается
Доверительный интервал для коэффициентов уравнения тренда
Определим доверительные интервалы коэффициентов тренда, которые с надежность 95% будут следующими (tтабл=1.895):
(a — tтабл·Sa; a + tтабл·Sa)
(-20.5642;-2.1758)
(b — t табл·Sb; b + tтаблb)
(36.7313;140.2087)
2) F-статистика. Критерий Фишера.

Fkp = 5.32
Поскольку F > Fkp, то коэффициент детерминации статистически значим
4. Тест Дарбина-Уотсона на наличие автокорреляции остатков для временного ряда.

yy(x)e i = y-y(x)e 2(e i — e i-1 ) 2
2225.32228.19-2.898.35210
2254.92282.55-27.65764.5225613.0576
2332.32314.1718.13328.69692095.8084
2365.82323.0542.751827.5625606.1444
2295.42309.19-13.79190.16413196.7716
2303.92272.5931.31980.31612034.01
2166.72213.25-46.552166.90256062.1796
2080.42131.17-50.772577.592917.8084
2075.92026.3549.552455.202510064.1024
11299.312124689.8824

Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости a, числа наблюдений n и количества объясняющих переменных m.
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5

Расчет доверительных интервалов и прогнозов для линейного уравнения регрессии

Как правило, в линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.Показатели корреляционной связи, вычисленные по ограничен­ной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом парамет­ре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признаков. Поэтому необхо­дима статистическая оценка степени точности и надежности пара­метров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не вклю­чает в себя величины противоположных знаков.

Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцени­ваемой величины со средней случайной ошибкой оценки. Для ко­эффициента парной регрессии b средняя ошибка оценки вычисля­ется как:

где Dост – остаточная дисперсия на одну степень свободы.

Для нашего примера величина стандартной ошибки коэффициента регрессии составила:

.

Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов. Они определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью точности, соответствующей заданному уровню значимости α (α – вероятность отвергнуть правильную гипотезу при условии, что она верна, обычно принимается равной 0,05 или 0,01).

Для оценки статистической значимости коэффициента линейной регрессии и линейного коэффициента парной корреляции, а также для расчета доверительных интервалов b, применяется t – критерий Стьюдента.

Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента: , которое затем сравнивается с табличным значением при определенном уровне значимости а и числе степеней свободы (n — 2).

В рассматриваемом примере фактическое значение t-критерия для коэффициента регрессии составило:

.

Этот же результат получим, извлекая квадратный корень из найденного F-критерия, т.е.

.

Действительно, справедливо равенство .

При (для двустороннего критерия) и числе степеней свободы 13 табличное значение tb=2,16. Так как фактическое значение t‑критерия превышает табличное, то, следовательно, гипотезу о несущественности коэффициента регрессии можно отклонить.

Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку для каждого показателя:

Формулы для расчета доверительных интервалов имеют вид:

Если границы интервала имеют разные знаки, т.е. в эти границы попадает ноль, то оцениваемый параметр принимается нулевым.

Доверительный интервал для коэффициента регрессии определяется как . Для коэффициента регрессии b в примере 95%-ные границы составят:

0,022 ± 2,16·0,0026 = 0,022 ± 0,0057, т.е.

Поскольку коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10 ≤ b ≤ 40. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Стандартная ошибка параметра а определяется по формуле:

Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется t-критерий: , его величина сравнивается с табличным значением при df = n — 2 степенях свободы. В нашем примере ma составила 0,032.

Значимость линейного коэффициента корреляции проверяется на основе величины ошибки коэффициента корреляции mr:

Фактическое значение t-критерия Стьюдента определяется как

Данная формула свидетельствует, что в парной линейной регрессии , ибо, как уже указывалось, Кроме того, Следовательно,

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

В рассматриваемом примере tr совпало с tb. Величина tr =8,37 значительно превышает табличное значение 2,16 при а=0,05. Следовательно, коэффициент корреляции существенно отличен от нуля и зависимость является достоверной.

Прогноз, полученный подстановкой в уравнение регрессии ожи­даемого значения фактора, называют точечным прогнозом. Вероят­ность точной реализации такого прогноза крайне мала. Необходимо сопроводить его значением средней ошибки прогноза или довери­тельным интервалом прогноза с достаточно большой вероятностью.

Точечный прогноз заключается в получении прогнозного значения yp, которое определяется путем подстановки в уравнение регрессии

соответствующего прогнозного значения xp:

Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. верхней и нижней границы ypmin, ypmax интервала, содержащего точную величину для прогнозного значения
(ypmin 2
– индекс детерминации;

n – число наблюдений;

m – число параметров при переменных х.

Величина m характеризует число степеней свободы для факторной суммы квадратов, а (n – m — 1) – число степеней свободы для остаточной суммы квадратов.

Для степенной функции и формула F – критерия примет тот же вид, что и при линейной зависимости:

Для параболы второй степени y=a + b·x + c·x 2 + ε m=2 и .

Для оценки качества построенной модели используется также средняя ошибка аппроксимации. Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. у и . Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака (у) по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Для сравнения берутся величины отклонений, выраженные в процентах к фактическим значениям. Так, если для первого наблюдения у=20, а для второго у=50, ошибка аппроксимации составит 25% для первого наблюдения и 20% — для второго.

Поскольку (у) может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:

.

Для нашего примера представим расчет средней ошибки аппроксимации в таблице 4.

8 рассчитать доверительные интервалы с надежностью 90 и 95 для параметров уравнения регрессии

Из полученного уравнения регрессии следует, что при увеличении оборота капитала X на 1 млрд. руб. чистый доход Y увеличивается на 0,054 млрд. руб.

2. Оценку статистической значимости параметров регрессии проведем с помощью t-статистики Стьюдента. Выдвигаем гипотезу Н0 о статистически незначимом отличии показателей от нуля: b0 = b1 = 0.

tтабл для числа степеней свободы df = n — 2 = 10 — 2 = 8 и = 0,05 составит:

Определим случайные ошибки:

Так как tтабл и tтабл, то гипотеза Н0 отклоняется, то есть параметры b0 и b1 не случайно отклоняются от нуля, а статистически значимы.

3. Рассчитаем доверительный интервал для b0 и b1. Для этого определим предельную ошибку для каждого показателя:

статистический регрессия детерминация автокорреляция

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью p = 1 — = 0,95 параметры b0 и b1, находясь в указанных границах, не принимают нулевых значений, то есть являются статистически значимыми.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза.

Если оборот капитала составит X = 50 млрд. руб., то чистый доход будет:

Для построения доверительного интервала для М(YX=50) необходимо найти дисперсию его оценки, то есть .

Выборочная остаточная дисперсия:

Из приложения находим .

Итак, чистый доход при обороте капитала X = 50 млрд. руб. с надежностью 0,95 находится в пределах от 2,92 до 3,86 млрд. руб.

5. Чтобы построить доверительный интервал для индивидуального значения , необходимо найти дисперсию его оценки по формуле:

Таким образом, возможные значения чистого дохода Y при обороте капитала X = 50 млрд. руб. с надежностью 0,95 находятся в пределах от 2,5 до 4,28 млрд. руб.

6. (млрд. руб.) — средний оборот капитала по 10 компаниям.

(млрд. руб.) — чистый доход компании при среднем обороте капитала X = 21,44 млрд. руб.

Следовательно, если оборот капитала вырастет на 3 млрд. руб., то чистый доход компании увеличится на 0,16 млрд. руб.

7. Вначале вычислим коэффициент корреляции:

Выборочные средние квадратические отклонения:

то есть связь между переменными X и Y достаточно тесная и прямая (с ростом оборота капитала чистый доход компании увеличивается).

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции:

Это означает, что вариация зависимой переменной Y — чистого дохода — на 90,6% объясняется вариацией переменной X — оборота капитала.

8. F-тест — оценивание качества уравнения регрессии — состоит в проверке гипотезы H0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполним сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.

Fтабл — это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости .

При = 0,05 и числе степеней свободы k = n — 2 = 8:

Так как Fфакт Fтабл, то Н0 — гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность.


источники:

http://mydocx.ru/4-12751.html

http://vuzlit.com/740573/