2 с какой целью проводится f тест уравнения регрессии

Проверка значимости регрессии с помощью дисперсионного анализа (F-тест)

history 26 января 2019 г.
    Группы статей
  • Статистический анализ

Проведем проверку значимости простой линейной регрессии с помощью процедуры F -тест.

Disclaimer : Данную статью не стоит рассматривать, как пересказ главы из учебника по статистике. Статья не обладает ни полнотой, ни строгостью изложения положений статистической науки. Эта статья – о применении MS EXCEL для целей Регрессионного анализа. Теоретические отступления приведены лишь из соображения логики изложения. Использование данной статьи для изучения Регрессии – плохая идея.

Проверку значимости взаимосвязи переменных в рамках модели простой линейной регрессии можно провести разными, но эквивалентными между собой, способами:

Проверку значимости взаимосвязи переменных в рамках модели простой линейной регрессии можно провести разными, но эквивалентными между собой, способами:

Процедуру F -теста рассмотрим на примере простой линейной регрессии , когда прогнозируемая переменная Y зависит только от одной переменной Х.

Чтобы определить может ли предложенная модель линейной регрессии быть использована для адекватного описания значений переменной Y, дисперсию наблюдаемых данных анализируют методом Дисперсионного анализа (ANOVA for Simple Regression) . Дисперсия данных разбивается на компоненты, которые затем используются в F -тесте для определения значимости регрессии.

F -тест для проверки значимости регрессии НЕ относится к простым и интуитивно понятным процедурам. Вероятно, это связано с тем, что для проведения F -теста требуется быть знакомым с определенным количеством статистических понятий и нужно неплохо разбираться в связанных с ними статистических методах. Нам потребуются понятия из следующих разделов статистики:

Можно, конечно, рассмотреть F -тест формально:

  • вычислить на основании выборки значение тестовойFстатистики;
  • сравнить полученное значение со значением, соответствующему заданному уровню значимости ;
  • в зависимости от соотношения этих величин принять решение о значимости вычисленной линейной регрессии

В этой статье ставится более амбициозная задача – разобраться в самом подходе, на котором основан F -тест . Сначала введем несколько определений, которые используются в процедуре F -теста , затем рассмотрим саму процедуру.

Примечание : Для тех, кому некогда, незачем или просто не хочется разбираться в теоретических выкладках предлагается сразу перейти к вычислительной части .

Определения, необходимые для F -теста

Согласно определению дисперсии , дисперсия выборки прогнозируемой переменной Y определяется формулой:

В формуле используется ряд сокращений:

  • SST (Total Sum of Squares) – это просто компактное обозначение Суммы Квадратов отклонений от среднего (такое сокращение часто используется в зарубежной литературе).
  • MST (Total Mean Square) – Среднее Суммы Квадратов отклонений (еще одно общеупотребительное сокращение).

Примечание : Необходимо иметь в виду, что с одной стороны величины MST и SST являются случайными величинами, вычисленными на основании выборки, т.е. статистиками . Однако с другой стороны, при проведении регрессионного анализа по данным имеющейся выборки вычисляются их конкретные значения. В этом случае величины MST и SST являются просто числами.

Значение n-1 в вышеуказанной формуле равно числу степеней свободы ( DF ) , которое относится к дисперсии выборки (одна степень свободы у n величин yi потеряна в результате наличия ограничения , связывающего все значения выборки). Число степеней свободы у величины SST также имеет специальное обозначение: DFT (DF Total).

Как видно из формулы, отношение величин SST и DFT обозначается как MST. Эти 3 величины обычно выдаются в таблице результатов дисперсионного анализа в различных прикладных статистических программах (в том числе и в надстройке Пакет анализа, инструмент Регрессия ).

Значение SST, характеризующую общую изменчивость переменной Y, можно разбить на 2 компоненты:

  • Изменчивость объясненную моделью (Explained variation), обозначается SSR

  • Необъясненную изменчивость (Unexplained variation), обозначается SSЕ

Известно , что справедливо равенство:

Величинам SSR и SSE также сопоставлены степени свободы . У SSR одна степень свободы , т.к. она однозначно определяется одним параметром – наклоном линии регрессии a (напомним, что мы рассматриваем простую линейную регрессию ). Это очевидно из формулы:

Примечание: Очевидность наличия только одной степени свободы проистекает из факта, что переменная Х – контролируемая (не является случайной величиной).

Число степеней свободы величины SSR имеет специальное обозначение: DFR (для простой регрессии DFR=1, т.к. число независимых переменных Х равно 1) . По аналогии с MST, отношение этих величин также часто обозначают MSR = SSR / DFR .

У SSE число степеней свободы равно n -2 , которое обозначается как DFE (или DFRES — residual degrees of freedom). Двойка вычитается, т.к. изменчивость переменной yi имеет 2 ограничения, связанные с оценкой 2-х параметров линейной модели ( а и b ): ŷi=a*xi+b

Отношение этих величин также часто обозначают MSE = SSE / DFE .

MSR и MSE имеют размерность дисперсий, хотя корректней их называть средними значениями квадратов отклонений. Тем не менее, ниже мы их будем «дисперсиями», т.к. они отображают меру разброса: MSE – меру разброса точек наблюдений относительно линии регрессии, MSR показывает насколько линия регрессии совпадает с горизонтальной линией среднего значения Y.

Примечание : Напомним, что MSE (Mean Square of Errors) является оценкой дисперсии s 2 ошибки, подробнее см. статью про линейную регрессию , раздел Стандартная ошибка регрессии .

Число степеней свободы обладает свойством аддитивности: DFT = DFR + DFE . В этом можно убедиться, составив соответствующее равенство n -1=1+( n -2)

Наконец, определившись с определениями, переходим к рассмотрению самой процедуры F -тест .

Процедура F -теста

Сущность F -теста при проверке значимости регрессии заключается в том, чтобы сравнить 2 дисперсии : объясненную моделью (MSR) и необъясненную (MSE). Если эти дисперсии «примерно равны», то регрессия незначима (построенная модель не позволяет объяснить поведение прогнозируемой Y в зависимости от значений переменной Х). Если дисперсия, объясненная моделью (MSR) «существенно больше», чем необъясненная, то регрессия значимая .

Примечание : Чтобы быстрее разобраться с процедурой F -теста рекомендуется вспомнить процедуру проверки статистических гипотез о равенстве дисперсий 2-х нормальных распределений (т.е. двухвыборочный F-тест для дисперсий ).

Чтобы пояснить вышесказанное изобразим на диаграммах рассеяния 2 случая:

  1. регрессия значима (в этом случае имеем значительный наклон прямой) и
  2. регрессия незначима (линия регрессии близка к горизонтальной прямой).

На первой диаграмме показан случай, когда регрессия значима:

  • Зеленым цветом выделены расстояния от среднего значения до линии регрессии , вычисленные для каждого хi. Сумма квадратов этих расстояний равна SSR;
  • Красным цветом выделены расстояния от линии регрессии до соответствующих точек наблюдений . Сумма квадратов этих расстояний равна SSЕ.

Из диаграммы видно, что в случае значимой регрессии, сумма квадратов «зеленых» расстояний, гораздо больше суммы квадратов «красных». Понятно, что их отношение будет гораздо больше 1. Следовательно, и отношение дисперсий MSR и MSE будет гораздо больше 1 (не забываем, что SSE нужно разделить еще на соответствующее количество степеней свободы n-2).

В случае значимой регрессии точки наблюдений будут находиться вдоль линии регрессии. Их разброс вокруг этой линии описываются ошибками регрессии, которые были минимизированы посредством процедуры МНК . Очевидно, что разброс точек относительно линии регрессии значительно меньше, чем относительно горизонтальной линии, соответствующей среднему значению Y.

Совершенно другую картину мы можем наблюдать в случае незначимой регрессии.

Очевидно, что в этом случае, сумма квадратов «зеленых» расстояний, примерно соответствует сумме квадратов «красных». Это означает, что объясненная дисперсия примерно соответствует величине необъясненной дисперсии (MSR/MSE будет близко к 1).

Если ответ о значимости регрессии практически очевиден для 2-х вышеуказанных крайних ситуаций, то как сделать правильное заключение для промежуточных углов наклона линии регрессии?

Понятно, что если вычисленное на основании выборки значение MSR/MSE будет существенно больше некоторого критического значения, то регрессия значима, если нет, то не значима. Очевидно, что это значение должно быть больше 1, но как определить это критическое значение статистически обоснованным методом ?

Вспомним, что для формулирования статистического вывода (т.е. значима регрессия или нет) используют проверку гипотез . Для этого формулируют 2 гипотезы: нулевую Н 0 и альтернативную Н 1 . Для проверки значимости регрессии в качестве нулевой гипотезы Н 0 принимают, что связи нет, т.е. наклон прямой a=0. В качестве альтернативной гипотезы Н 1 принимают, что a <>0.

Примечание : Даже если связи между переменными нет (a=0), то вычисленная на основании данных выборки оценка наклона — величина а , из-за случайности выборки будет близка, но все же отлична от 0.

По умолчанию принимается, что нулевая гипотеза верна – связи между переменными нет. Если это так, то:

  • MSR/MSE будет близко к 1;
  • Случайная величина F = MSR/MSE будет иметь F-распределениесо степенями свободы 1 (в числителе) и n-2 (знаменателе). F является тестовой статистикой для проверки значимости регрессии.

Примечание : MSR и MSE являются случайными величинами (т.к. они получены на основе случайной выборки). Соответственно, выражение F=MSR/MSE, также является случайной величиной, которая имеет свое распределение, среднее значение и дисперсию .

Ниже приведен график плотности вероятности F-распределения со степенями свободы 1 (в числителе) и 59 (знаменателе). 59=61-2, 61 наблюдение минус 2 степени свободы.

Если нулевая гипотеза верна, то значение F 0 =MSR/MSE, вычисленное на основании выборки, должно быть около ее среднего значения (т.е. около 1,04). Если F 0 будет существенно больше 1 (чем больше F0 отклоняется в сторону больших значений, тем это маловероятней), то это будет означать, что F не имеет F-распределение , а, следовательно, нулевую гипотезу нужно отклонить и принять альтернативную, утверждающую, что связь между переменными есть (значима).

Обычно предполагают, что если вероятность, того что F -статистика приняла значение F0 составляет менее 5%, то это событие маловероятно и нулевую гипотезу необходимо отклонить. 5% — это заданный исследователем уровень значимости , который может быть, например, 1% или 10%.

Значение статистики F0 может быть вычислено на основании выборки:

Вычисления в MS EXCEL

В MS EXCEL критическое значение для заданного уровня значимости F1-альфа, 1, n-2 можно вычислить по формуле = F.ОБР(1- альфа;1; n-2) или = F.ОБР.ПХ(альфа;1; n-2) . Другими словами требуется вычислить верхний альфа-квантиль F-распределения с соответствующими степенями свободы .

Таким образом, при значении статистики F0> F1-альфа, 1, n-2 мы имеем основание для отклонения нулевой гипотезы.

Значение F 0 можно вычислить на основании значений выборки по вышеуказанной формуле или с помощью функции ЛИНЕЙН() :

В случае простой регрессии значение F0 также равно квадрату t-статистики, которую мы использовали при проверке двусторонней гипотезе о равенстве 0 коэффициента регрессии .

Проверку значимости регрессии можно также осуществить через вычисление p-значения. В этом случае вычисляют вероятность того, что случайная величина F примет значение F0 (это и есть p-значение), затем сравнивают p-значение с заданным уровнем значимости . Если p-значение больше уровня значимости, то нулевую гипотезу нет оснований отклонить, и регрессия незначима.

В MS EXCEL для проверки гипотезы используя p -значение используйте формулу = F.РАСП.ПХ(F0;1;n-2) файл примера , где показано эквивалентность всех подходов проверки значимости регрессии).

В программах статистики результаты процедуры F -теста выводят с помощью стандартной таблицы дисперсионного анализа . В файле примера такая таблица приведена на листе Таблица, которая построена на основе результатов, возвращаемых инструментом Регрессия надстройки Пакета анализа MS EXCEL .

F-тест для регрессионного анализа

Дата публикации Oct 27, 2019

F-тест, когда он используется для регрессионного анализа, позволяет сравнивать две конкурирующие регрессионные модели по их способности «объяснить» дисперсию в зависимой переменной.

F-тест используется в основном в ANOVA и в регрессионном анализе. Мы изучим его использование влинейныйрегрессия.

Зачем использовать F-тест в регрессионном анализе

В линейной регрессии F-критерий можно использовать для ответа на следующие вопросы:

  • Сможете ли вы улучшить свою модель линейной регрессии, сделав ее более сложной, то есть добавив в нее больше переменных линейной регрессии?
  • Если у вас уже есть сложная модель регрессии, вам лучше торговать своей сложной моделью с моделью только для перехвата (которая является самой простой моделью линейной регрессии, которую вы можете построить)?

Второй вопрос является частным случаем первого вопроса. В обоих случаях две модели, как говорят,вложенный, Более простая модель называетсяограниченная модель.Это как если бы мы ограничивали использование меньшего количества переменных регрессии. Сложная модель называетсянеограниченная модель.Он содержит все переменные ограниченной модели и как минимум еще одну переменную.

Говорят, что модель с ограничениями вложена в модель без ограничений.

Давайте рассмотрим использование F-теста на примере реального временного ряда. Мы начнем с построения модели только для перехвата — ограниченной модели.

Краткий обзор модели только для перехвата

В следующем временном ряду показана дневная цена закрытия промышленного индекса Доу-Джонса за трехмесячный период.

Предположим, мы хотим создать регрессионную модель для этого временного ряда. Но мы не знаем, какие факторы влияют на цену закрытия. Мы также не хотим предполагать какую-либо инфляцию, тренд или сезонность в наборе данных.

В отсутствие каких-либо предположений об инфляции, тенденции, сезонности или наличии объясняющих переменных лучшее, что мы можем сделать, — это модель только для перехвата (иногда известная каксредняя модель). Он принимает следующую форму для нашего примера временного ряда:

В модели только для перехвата все прогнозы принимают значение перехвата Beta_0. На следующем графике показана подходящая модель только для перехвата на фоне фактического временного ряда:

Вот код Python для получения вышеуказанных результатов:

Импортируйте все необходимые пакеты:

Считайте набор данных во фрейм данных Pandas:

Вычислите среднее значение выборки и установите все прогнозируемые значения в это среднее значение:

График фактических и прогнозируемых значений:

Можем ли мы сделать что-то лучше, чем средняя модель? Возможно, мы можем. Давайте попробуем разработать конкурирующую неограниченную модель для этого временного ряда.

Конкурирующая модель

Предположим, с помощью некоторого анализа мы пришли к выводу, что сегодняшняя стоимость цены закрытия DJIA может оказаться хорошим предиктором цены закрытия завтрашнего дня.

Чтобы проверить эту теорию, мы разработаем модель линейной регрессии, состоящую из одной регрессионной переменной. Эта переменная будет временной задержкой временного ряда. Следующий код Python иллюстрирует процесс регрессии:

Импортируйте необходимые пакеты:

Считайте набор данных во фрейм данных Pandas:

Добавьте столбец с задержкой по времени:

Вот первые несколько строк модифицированного фрейма данных. Первая строка содержит NaN, поскольку нет ничего, что могло бы отставать от этого значения:

Давайте удалим первый ряд, чтобы избавиться от NaN:

Далее давайте создадим наши обучающие и тестовые наборы данных:

Построить и подогнать OLS (О, очередныеLвостокSquares) регрессионная модель к набору данных временных рядов:

Используйте подобранную модель для прогнозирования наборов данных обучения и тестирования:

График производительности модели противнабор тестовых данных:

Результаты выглядят так:

На первый взгляд, производительность этой модели выглядит намного лучше, чем у средней модели. Но при более внимательном рассмотрении выясняется, что на каждом временном шаге модель просто научилась предсказывать то, что по существу является ранее наблюдаемым значением, смещенным на определенную величину.

Но все же, эта модель с отставанием переменнойможетбыть статистически лучше, чем модель, основанная только на перехвате, при объяснении количества отклонений в цене закрытия. Мы будем использовать F-тест, чтобы определить, правда ли это.

Подход к тестированию

Наш подход к тестированию будет следующим:

Начнем с двух гипотез:

  • H_0: Нулевая гипотеза:Модель с лаговой переменной не объясняет разницу в цене закрытия DJIA лучше, чем модель с перехватом
  • H_1: альтернативная гипотеза:Модель с переменной задержкой лучше справляется (статистически значимым образом) с объяснением разницы в цене закрытия DJIA, чем модель с перехватом.

Мы будем использовать F-тест на двух моделях: модель только для перехвата и модель отстающих переменных, чтобы определить:

  • Нулевая гипотеза может быть отклонена (и принята альтернативная гипотеза) с некоторой погрешностью, ИЛИ
  • Нулевая гипотеза должна быть принята.

Пошаговая процедура использования F-теста

Для достижения вышеуказанных целей мы будем выполнять следующие шаги:

  1. Сформулируйте статистику теста для F-теста a.k.a.F-статистика,
  2. ОпределитьпrobabilityDensityFфункция случайной величины, которую представляет F-статистикав предположении, что нулевая гипотеза верна,
  3. Вставьте значения в формулу для F-статистики и рассчитайте соответствующее значение вероятности, используяпrobabilityDensityFПризнак найден в шаге 2. Это вероятность наблюдения значения F-статистикипредполагая, что нулевая гипотеза верна,
  4. Если вероятность, найденная на шаге 3, меньше порога ошибки, такого как 0,05, отклоните нулевую гипотезу и примите альтернативную гипотезу с уровнем достоверности (1,0 — порог ошибки), например, например, 1–0,05 = 0,95 (т.е. уровень достоверности 95%). В противном случае примите нулевую гипотезу с вероятностью ошибки, равной пороговой ошибке, например, на 0,05 или 5%.

Давайте погрузимся в эти шаги.

ШАГ 1: Разработка интуиции для тестовой статистики

Вспомните, что F-тест измеряет, насколько лучше сложная модель по сравнению с более простой версией той же модели в ее способности объяснить дисперсию в зависимой переменной.

Рассмотрим две модели регрессии 1 и 2:

  • Пусть Модель 1 имеетk_1параметры. Модель 2 имеетk_2параметры.
  • Позволятьk_1

Формула F-статистики позволяет подсчитать, сколько из дисперсии в зависимой переменной, чем проще модельнев состоянии объяснить по сравнению со сложной моделью, выраженной в виде доли необъяснимой дисперсии от сложной модели.

В регрессионном анализе среднеквадратичная ошибка подобранной модели является отличной мерой необъяснимой дисперсии. Что объясняет термины RSS в числителе и знаменателе.

Числитель и знаменатель соответственно масштабируются с использованием соответствующих доступных степеней свободы.

F-статистика сама является случайной величиной.

Давайте определим, какиепrobabilityDensityFфункция F-статистика подчиняется.

ШАГ 2: Определение функции плотности вероятности F-статистики

Обратите внимание, что как числитель, так и знаменатель тестовой статистики содержат суммы квадратов остаточных ошибок. Также следует помнить, что в регрессии остаточная ошибка является случайной величиной с некоторой функцией плотности вероятности (или массы вероятности), то есть PDF или PMF, в зависимости от того, является ли она непрерывной или дискретной. В этом случае мы занимаемся поиском PDF F-статистики.

Если мы предположим, что остаточные ошибки из двух моделей 1) независимы и 2) нормально распределены, что, кстати, является требованиямиО, очередныеLвостокSрегрессии, то можно видеть, что числитель и знаменатель формулы F-статистики содержат суммы квадратов независимых, нормально распределенных случайных величин.

Можно доказать, что сумма квадратов k независимых стандартных нормальных случайных величин соответствует PDF распределения хи-квадрат (k).

Таким образом, числитель и знаменатель формулы F-статистики могут быть показаны каждому подчиненному масштабированному варианту двух распределений хи-квадрат.

Приложив немного математики, можно также показать, что отношение двух соответствующим образом масштабированных распределенных случайных величин Хи-квадрат само по себе является случайной величиной, следующей заF-распределение, чей PDF показан ниже.

Если случайная величинаИксимеет PDF F-распределения с параметрамиd_1а такжеd_2т.е. :

тогда,Иксможет быть показано как отношение двух соответственно масштабированных случайных величинX_1а такжеX_2каждая из которых имеет PDF распределения Хи-квадрат. т.е.

Теперь вспомним, что k_1 и k_2 — это число переменных в простых и сложных моделях M1 и M2, представленных ранее, иNколичество образцов данных.

Замените d_1 и d_2 следующим образом:

d_1 = (k_2 — k_1), который представляет собой разницу в степенях свободы невязок двух сравниваемых моделей M1 и M2, и

d_2 = (n — k_2) — степени свободы невязок комплексной модели M2,

С помощью этих подстановок мы можем переписать формулу F-распределения следующим образом:

Давайте сравним приведенную выше формулу с формулой для F-статистики (воспроизведенной ниже), где мы знаем, что числитель и знаменатель содержат соответственно масштабированные PDF-распределения распределения Хи-квадрат:

Сравнивая эти две формулы, ясно, что:

  1. Степень свободы ‘а»распределения хи-квадрат в числителе: (k1 — k2).
  2. Степень свободы ‘б»распределения хи-квадрат в знаменателе: (n — k2).
  3. Статистика теста F-теста имеет тот же PDF, что и F-распределение.

Другими словами, F-статистика следует за F-распределением.

ШАГ 3: Расчет значения F-статистики

Если вы используетеstatsmodels’Оценка OLS, этот шаг — однострочная операция. Все, что вам нужно сделать, это распечататьOLSResults.summary ()и вы получите:

  1. Значение F-статистики и,
  2. Соответствующее значение p, то есть вероятность того, что оно будет найдено, из PDF-файла F-дистрибутива.

statsmodelsбиблиотека выполнит основную работу обоих вычислений.

Это печатает следующее:

ШАГ 4: Определение допустимости нулевой гипотезы

посколькуOLSResults.summary ()выводит вероятность появления F-статистики в предположении, что нулевая гипотеза верна, нам нужно только сравнить эту вероятность с нашим пороговым значением альфа. В нашем примере значение p, возвращаемое.резюме()4.84E-16, что очень мало. Гораздо меньше, чем даже альфа = 0,01. Таким образом, вероятность того, что F-статистика в 136,7, могла бы быть случайной в предположении правильной нулевой гипотезы, составляет менее 1%.

Таким образом, мы отвергаем нулевую гипотезу и принимаем альтернативную гипотезу H_1 о том, что комплексная модель, то есть модель с отстающими переменными, несмотря на ее очевидные недостатки, способна объяснить дисперсию зависимой переменной Closing Price лучше, чем модель только для перехвата.

Вот полный исходный код Python, показанный в этой статье:

Файл данных, содержащий цены закрытия DJIAздесь,

Вывод

  • F-критерий можно использовать в регрессионном анализе, чтобы определить, лучше ли сложная модель, чем более простая версия той же модели, для объяснения отклонения в зависимой переменной.
  • Тестовая статистика F-теста является случайной величиной, чьяпrobabilityDensityFUnction является F-распределениемв предположении, что нулевая гипотеза верна.
  • Процедура тестирования для F-теста на регрессию по своей структуре идентична процедуре других значимых параметрических тестов, таких как t-тест.

Спасибо за чтение! Я пишу о темах в науке о данных, уделяя особое внимание анализу временных рядов и прогнозированию.

Если вам понравилась эта статья, пожалуйста, следуйте за мной наСачин Свиданиеполучать советы, инструкции и советы по программированию по темам, посвященным анализу временных рядов и прогнозированию.

F-тест качества спецификации множественной регрессионной модели

Цель этой статьи — рассказать о роли степеней свободы в статистическом анализе, вывести формулу F-теста для отбора модели при множественной регрессии.

1. Роль степеней свободы (degree of freedom) в статистике

Имея выборочную совокупность, мы можем лишь оценивать числовые характеристики совокупности, параметры выбранной модели. Так не имеет смысла говорить о среднеквадратическом отклонении при наличии лишь одного наблюдения. Представим линейную регрессионную модель в виде:

Сколько нужно наблюдений, чтобы построить линейную регрессионную модель? В случае двух наблюдений можем получить идеальную модель (рис.1), однако есть в этом недостаток. Причина в том, что сумма квадратов ошибки (MSE) равна нулю и не можем оценить оценить неопределенность коэффициентов . Например не можем построить доверительный интервал для коэффициента наклона по формуле:

А значит не можем сказать ничего о целесообразности использования коэффициента в данной регрессионной модели. Необходимо по крайней мере 3 точки. А что же, если все три точки могут поместиться на одну линию? Такое может быть. Но при большом количестве наблюдений маловероятна идеальная линейная зависимость между зависимой и независимыми переменными (рис. 1).

Рисунок 1 — простая линейная регрессия

Количество степеней свободы — количество значений, используемых при расчете статистической характеристики, которые могут свободно изменяться. С помощью количества степеней свободы оцениваются коэффициенты модели и стандартные ошибки. Так, если имеется n наблюдений и нужно вычислить дисперсию выборки, то имеем n-1 степеней свободы.

Мы не знаем среднее генеральной совокупности, поэтому оцениваем его средним значением по выборке. Это стоит нам одну степень свободы.

Представим теперь что имеется 4 выборочных совокупностей (рис.3).

Рисунок 3

Каждая выборочная совокупность имеет свое среднее значение, определяемое по формуле . И каждое выборочное среднее может быть оценено . Для оценки мы используем 2 параметра , а значит теряем 2 степени свободы (нужно знать 2 точки). То есть количество степеней свобод Заметим, что при 2 наблюдениях получаем 0 степеней свободы, а значит не можем оценить коэффициенты модели и стандартные ошибки.

Таким образом сумма квадратов ошибок имеет (SSE, SSE — standard error of estimate) вид:

Стоит упомянуть, что в знаменателе стоит n-2, а не n-1 в связи с тем, что среднее значение оценивается по формуле . Квадратные корень формулы (4) — ошибка стандартного отклонения.

В общем случае количество степеней свободы для линейной регрессии рассчитывается по формуле:

где n — число наблюдений, k — число независимых переменных.

2. Анализ дисперсии, F-тест

При выполнении основных предположений линейной регрессии имеет место формула:

где ,

,

В случае, если имеем модель по формуле (1), то из предыдущего раздела знаем, что количество степеней свободы у SSTO равно n-1. Количество степеней свободы у SSE равно n-2. Таким образом количество степеней свободы у SSR равно 1. Только в таком случае получаем равенство .

Масштабируем SSE и SSR с учетом их степеней свободы:

Получены хи-квадрат распределения. F-статистика вычисляется по формуле:

Формула (9) используется при проверке нулевой гипотезы при альтернативной гипотезе в случае линейной регрессионной модели вида (1).

3. Выбор линейной регрессионной модели

Известно, что с увеличением количества предикторов (независимых переменных в регрессионной модели) исправленный коэффициент детерминации увеличивается. Однако с ростом количества используемых предикторов растет стоимость модели (под стоимостью подразумевается количество данных которые нужно собрать). Однако возникает вопрос: “Какие предикторы разумно использовать в регрессионной модели?”. Критерий Фишера или по-другому F-тест позволяет ответить на данный вопрос.

Определим “полную” модель: (10)

Определим “укороченную” модель: (11)

Вычисляем сумму квадратов ошибок для каждой модели:

(12)

(13)

Определяем количество степеней свобод

(14)

Нулевая гипотеза — “укороченная” модель мало отличается от “полной (удлиненной) модели”. Поэтому выбираем “укороченную” модель. Альтернативная гипотеза — “полная (удлиненная)” модель объясняет значимо большую долю дисперсии в данных по сравнению с “укороченной” моделью.

Коэффициент детерминации из формулы (6):

Из формулы (15) выразим SSE(F):

SSTO одинаково как для “укороченной”, так и для “длинной” модели. Тогда (14) примет вид:

Поделим числитель и знаменатель (14a) на SSTO, после чего прибавим и вычтем единицу в числителе.

Используя формулу (15) в конечном счете получим F-статистику, выраженную через коэффициенты детерминации.

3 Проверка значимости линейной регрессии

Данный тест очень важен в регрессионном анализе и по существу является частным случаем проверки ограничений. Рассмотрим ситуацию. У линейной регрессионной модели всего k параметров (Сейчас среди этих k параметров также учитываем ).Рассмотрим нулевую гипотеза — об одновременном равенстве нулю всех коэффициентов при предикторах регрессионной модели (то есть всего ограничений k-1). Тогда “короткая модель” имеет вид . Следовательно. Используя формулу (14.в), получим

Заключение

Показан смысл числа степеней свободы в статистическом анализе. Выведена формула F-теста в простом случае(9). Представлены шаги выбора лучшей модели. Выведена формула F-критерия Фишера и его запись через коэффициенты детерминации.

Можно посчитать F-статистику самому, а можно передать две обученные модели функции aov, реализующей ANOVA в RStudio. Для автоматического отбора лучшего набора предикторов удобна функция step.

Надеюсь вам было интересно, спасибо за внимание.

При выводе формул очень помогли некоторые главы из курса по статистике STAT 501


источники:

http://www.machinelearningmastery.ru/fisher-test-for-regression-analysis-1e1687867259/

http://habr.com/ru/post/592677/