Члены уравнения при линейной зависимости

Линейно зависимые и линейно независимые функции. Примеры исследования функций на линейную зависимость по определению.

Функции $y_1(x),\;y_2(x),\;y_3(x),\ldots,y_n(x)$ называются линейно зависимыми на некотором множестве $T$, если существуют такие константы $\alpha_1,\;\alpha_2,\;\alpha_3,\ldots,\alpha_n$, что $\forall x\in T$ выполняется следующее равенство:

$$ \begin \alpha_1\cdot y_1+\alpha_2\cdot y_2+\ldots+\alpha_n\cdot y_n=0 \end $$

Примечание к терминологии: показать\скрыть

В определении использован термин «равенство», хотя можно было бы воспользоваться термином «тождество». Фразы «для каждого значения переменной $x\in T$ выполняется равенство $a(x)=b(x)$» и «на множестве $T$ верно тождество $a(x)\equiv b(x)$» равносильны. Например, фраза «равенство $\sin^2x=1-\cos^2x$ выполнено для $\forall x\in R$», равносильна такой: «на множестве $R$ верно тождество $\sin^2x=1-\cos^2x$». Т.е. вместо слов о том, что «$\forall x\in T$ выполняется следующее равенство: $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\ldots+\alpha_n\cdot y_n=0$» можно сказать так: «на множестве $T$ верно тождество $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\ldots+\alpha_n\cdot y_n\equiv 0$». Некоторые авторы предпочитают использовать именно термин «тождество».

Условие (2) можно изложить и в такой формулировке: среди коэффициентов $\alpha_i$ есть хотя бы один, не равный нулю.

Несложно убедиться в равносильности формулировок. Равенство $\alpha_<1>^<2>+\alpha_<2>^<2>+\ldots+\alpha_^<2>=0$ возможно в том и только в том случае, когда $\alpha_1=\alpha_2=\ldots=\alpha_n=0$. Если же $\sum_^\alpha_^<2>\neq 0$, то равенство $\alpha_1=\alpha_2=\ldots=\alpha_n=0$ не выполнено, т.е. хотя бы один из коэффициентов $\alpha_i$ отличен от нуля.

Если же равенство (1) возможно лишь при условии:

то функции $y_1(x),\;y_2(x),\;y_3(x),\ldots,y_n(x)$ именуют линейно независимыми на множестве $T$. По сути, условие (3) равносильно такому: все коэффициенты $\alpha_i$ равны нулю.

Для двух функций несложно вывести простое правило: если $\forall x\in T$ $\frac\neq const$ на некотором интервале $T=(a;b)$, то функции $y_1(x)$ и $y_2 (x)$ линейно независимы на $T$. Если же $\forall x\in T$ $\frac= const$ на $T$, то функции $y_1(x)$ и $y_2 (x)$ линейно зависимы на $T$.

Обоснование этого правила: показать\скрыть

Допустим, что $\frac\neq const$ на $T$, однако функции $y_1(x)$ и $y_2 (x)$ линейно зависимы. Если функции линейно зависимы, то существуют такие константы $\alpha_1$ и $\alpha_2$, не равные нулю одновременно, что выполняется равенство: $\alpha_1\cdot y_1+\alpha_2\cdot y_2=0$. Пусть, к примеру, $\alpha_1\neq 0$. Тогда, с учетом $y_2 (x)\neq 0$ на $T$, получим: $\frac=-\frac<\alpha_2><\alpha_1>=const$, что противоречит допущению $\frac\neq const$.

Если же $\frac= const$, то $y_1(x)-C\cdot y_2(x)=0$ на $T$, т.е. $\alpha_1=1;\;\alpha_2=-C$. При этом $\alpha_<1>^<2>+\alpha_<2>^<2>=1+C^2\neq 0$, т.е. функции $y_1(x)$ и $y_2 (x)$ линейно зависимы на $T$.

Все примеры, указанные в этой теме, будут опираться на определения и свойство, приведенные выше. Естественно, что в общем случае применение таких определений несколько затруднительно. Существует несколько критериев, которые позволяют упростить процесс проверки функций на линейную зависимость. На сайте рассмотрены два таких способа: с помощью определителя Вронского и определителя Грама.

Выяснить, являются ли функции $y_1(x)=x^2+2x-4$, $y_2(x)=-4x^2+7x-1$, $y_3(x)=-5x^2+20x-14$ линейно зависимыми или линейно независимыми на множестве $R$.

Рассмотрим линейную комбинацию этих функций: $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\alpha_3\cdot y_3$. Если $\forall x\in R$ равенство $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\alpha_3\cdot y_3=0$ выполняется только при $\alpha_1=\alpha_2=\alpha_3=0$, то рассматриваемые функции линейно независимы. Если же $\forall x\in R$ равенство $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\alpha_3\cdot y_3=0$ возможно при условии, что хотя бы один из коэффициентов $\alpha_i$ не равен нулю, то функции линейно зависимы.

Подставим в выражение $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\alpha_3\cdot y_3=0$ заданные функции:

Раскроем скобки и перегруппируем слагаемые:

$$ \alpha_1\cdot x^2+2\alpha_1\cdot x-4\alpha_1-4\alpha_2\cdot x^2+7\alpha_2\cdot x-\alpha_2-5\alpha_3\cdot x^2+20\alpha_3\cdot x-14\alpha_3=0; $$ $$(\alpha_1-4\alpha_2-5\alpha_3)\cdot x^2+(2\alpha_1+7\alpha_2+20\alpha_3)\cdot x+(-4\alpha_1-\alpha_2-14\alpha_3)=0.$$

Последнее равенство возможно лишь в том случае, когда коэффициенты при степенях переменной $x$ одновременно равны нулю, т.е.:

Мы получили однородную систему линейных уравнений. Нам нет необходимости в её решении, нужно лишь установить количество решений. Если решение лишь одно – нулевое (или, в иной терминологии, тривиальное), т.е. $\alpha_1=\alpha_2=\alpha_3=0$, то функции линейно независимы. Если же есть иные решения, кроме нулевого, то функции линейно зависимы. Найдем ранг матрицы системы $A= \left( \begin 1 & -4& -5\\ 2 & 7& 20 \\ -4& -1& -14 \end \right)$ и ранг расширенной матрицы системы: $\tilde= \left( \begin 1 & -4& -5& 0\\ 2 & 7& 20 & 0 \\ -4& -1& -14 & 0 \end \right)$, а затем применим теорему Кронекера-Капелли.

Отсюда получаем решение: $\left\< \begin&\alpha_1=-3\alpha_3;\\&\alpha_2=-2\alpha_3;\\&\alpha_3=\alpha_3;\;\alpha_3 \in R \end \right.$ Например, подставив $\alpha_3=-1$, получим: $\alpha_1=3;\; \alpha_2=2$. Несложно убедиться непосредственной проверкой, что равенство $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\alpha_3\cdot y_3=0$ при найденных коэффициентах будет выполнено $\forall x\in R$:

$$ 3\cdot y_1+2\cdot y_2-y_3=3\cdot(x^2+2x-4)+2\cdot(-4x^2+7x-1)-(-5x^2+20x-14)=0. $$

Итак, существуют такие константы $\alpha_1;\;\alpha_2;\;\alpha_3$ (например, $\alpha_1=3;\;\alpha_2=2;\;\alpha_3=-1$), не все одновременно равные нулю, что на $R$ выполняется тождество $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\alpha_3\cdot y_3\equiv 0$. Следовательно, рассматриваемые функции линейно зависимы.

Исследовать на линейную зависимость такие функции: $y_1(x)=x\ln(x+4);\;y_2(x)=\ln^2(x+4)$.

Исследование проведем в интервале $T=(-4;+\infty)$, который представляет собой область определения заданных функций. Применим правило для определения линейной зависимости двух функций, указанное в начале страницы. Так как при $x\in(-4;+\infty)$ имеем: $\frac=\frac<\ln(x+4)>\neq const$, то данные функции линейно независимы на $T=(-4;+\infty)$.

Исследовать на линейную зависимость функции: $y_1(x)=1$, $y_2(x)=x$, $y_3(x)=x^2$, $y_4(x)=x^3$, $y_5(x)=x^4$.

Область определения этих функций есть вся числовая прямая, т.е. $x \in R$. Рассмотрим равенство:

$$ \begin \alpha_1\cdot 1+\alpha_2\cdot x+\alpha_3\cdot x^2+\alpha_4\cdot x^3+\alpha_5\cdot x^4=0 \end $$

Если равенство (4) для всех $x\in R$ возможно лишь при условии $\alpha_1=\alpha_2=\alpha_3=\alpha_4=\alpha_5=0$, то заданные функции линейно независимы. Если же равенство (4) $\forall x\in R$ выполняется на наборе констант $\alpha_1$, $\alpha_2$, $\alpha_3$, $\alpha_4$, $\alpha_5$, среди которых хотя бы одна отлична от нуля, то заданные функции линейно зависимы. Итак, нужно исследовать равенство (4).

В левой части равенства (4) расположен многочлен, порядок (или, в иной терминологии, степень) которого не превышает $4$. Например, если $\alpha_1=2; \;\alpha_2=0;\;\alpha_3=0;\;\alpha_4=7;\;\alpha_5=0$, то получим многочлен третьего порядка:

$$\alpha_1\cdot 1+\alpha_2\cdot x+\alpha_3\cdot x^2+\alpha_4\cdot x^3+\alpha_5\cdot x^4=7x^3+2.$$

Т.е. в левой части равенства (4) может быть многочлен четвертого, третьего, второго, первого и нулевого порядков.

Рассмотрим случай, когда в левой части равенства (4) расположен многочлен, порядок которого не равен нулю (среди констант $\alpha_2;\;\alpha_3;\;\alpha_4;\;\alpha_5$ хотя бы одна не равна нулю). Любой многочлен первого порядка может обратиться в ноль только в одной точке (т.е. существует только одно значение $x$, при котором многочлен первого порядка равен нулю). Многочлен второго порядка равен нулю не более, чем в двух точках; многочлен третьего порядка – не более, чем в трёх точках; многочлен четвертого порядка обращается в ноль не более, чем в четырёх точках. Т.е. если среди констант $\alpha_2;\;\alpha_3;\;\alpha_4;\;\alpha_5$ есть хотя бы одна, отличная от нуля, то равенство (4) может быть выполнено не более, чем при четырёх значениях $x$ (а не для всех $x\in R$).

Рассмотрим ситуацию, когда среди констант $\alpha_2;\;\alpha_3;\;\alpha_4;\;\alpha_5$ нет ни одной, отличной от нуля, т.е. $\alpha_2=\alpha_3=\alpha_4=\alpha_5=0$. В этом случае в левой части равенства (4) получим многочлен нулевого порядка:

$$\alpha_1\cdot 1+\alpha_2\cdot x+\alpha_3\cdot x^2+\alpha_4\cdot x^3+\alpha_5\cdot x^4=\alpha_1$$

А само равенство (4) станет таким: $\alpha_1=0$. Следовательно, для многочлена нулевого порядка выполнение равенства (4) возможно лишь при $\alpha_1=\alpha_2=\alpha_3=\alpha_4=\alpha_5=0$.

Подведём итоги: если в правой части равенства (4) стоит многочлен ненулевого порядка, то равенство (4) не может быть выполнено при всех $x\in R$. Равенство (4) может быть выполнено для всех $x\in R$ только когда в правой части стоит многочлен нулевого порядка, однако это означает $\alpha_1=\alpha_2=\alpha_3=\alpha_4=\alpha_5=0$. Так как равенство (4) выполняется для всех $x\in R$ только при условии $\alpha_1=\alpha_2=\alpha_3=\alpha_4=\alpha_5=0$, то заданные функции линейно независимы на $R$.

Исследовать на линейную зависимость функции: $y_1(x)=4$, $y_2(x)=\arcsin$, $y_3(x)=\arccos$ на отрезке $[-1;1]$.

Так как $\arcsin x+\arccos x=\frac<\pi> <2>\; \forall x \in [-1;1]$ то:

$$\arcsin x+\arccos x=\frac<\pi><8>\cdot4; \; \arcsin x+\arccos x-\frac<\pi><8>\cdot4=0; \; 1\cdot y_1+1\cdot y_2+\left(-\frac<\pi><8>\right)\cdot y_3=0$$

Итак, существует такой набор констант $\alpha_1; \; \alpha_2;\; \alpha_3$ (например, $\alpha_1=1;\; \alpha_2=1;\; \alpha_3=-\frac<\pi><8>$), среди которых есть хотя бы одна константа, отличная от нуля, что равенство $\alpha_1\cdot y_1+\alpha_2\cdot y_2+\alpha_3\cdot y_3=0$ будет выполнено для всех $x\in[-1;1]$. Это означает, что функции $y_1(x)=4$, $y_2(x)=\arcsin$, $y_3(x)=\arccos$ линейно зависимы на отрезке $[-1;1]$.

Исследовать на линейную зависимость функции: $y_1(x)=x;\; y_2(x)=|x|$ в их области определения.

Областью определения заданных функций есть все множество действительных чисел, т.е. $x\in R$. Функции будут линейно зависимыми, если существует такой набор констант $\alpha_1$ и $\alpha_2$, что для всех значений $x\in R$ выполнено равенство $\alpha_1\cdot y_1+\alpha_2\cdot y_2=0$ (т.е. $\alpha_1\cdot x+\alpha_2\cdot |x|=0$), причем хотя бы один из коэффициентов ($\alpha_1$ или $\alpha_2$) не равен нулю. Если же выполнение равенства $\alpha_1\cdot y_1+\alpha_2\cdot y_2=0$ при $\forall x\in R$ возможно лишь при $\alpha_1=\alpha_2=0$, то заданные функции будут линейно независимыми. Рассмотрим равенство $\alpha_1\cdot x+\alpha_2\cdot |x|=0$ подробнее.

Если $x≥ 0$, то $|x|=x$, поэтому равенство $\alpha_1\cdot x+\alpha_2\cdot |x|=0$ станет таким: $\alpha_1\cdot x+\alpha_2\cdot x=0$, $x\cdot(\alpha_1+\alpha_2)=0$. Равенство $x\cdot(\alpha_1+\alpha_2)=0$ должно быть выполнено при всех $x≥ 0$, поэтому $\alpha_1+\alpha_2=0$.

Итак, чтобы равенство $\alpha_1\cdot x+\alpha_2\cdot |x|=0$ было верным для всех $x\in R$, требуется выполнение двух условий:

Полученная система имеет лишь тривиальное (нулевое) решение: $\alpha_1=\alpha_2=0$. Итак, выполнение равенства $\alpha_1\cdot x+\alpha_2\cdot |x|=0$ при $\forall x\in R$ возможно лишь в случае $\alpha_1=\alpha_2=0$, поэтому функции линейно независимы на R.

Исследование на линейную зависимость с помощью определителей Вронского и Грама указаны в дальнейших темах сайта.

Заметили ошибку, опечатку, или некорректно отобразилась формула? Отпишите, пожалуйста, об этом в данной теме на форуме (регистрация не требуется).

Корреляция — определение и вычисление с примерами решения

Содержание:

Понятие о корреляции:

Марксистская философия учит, что каждое явление природы и общества не возникает само по себе, отдельно от других, а находится в связи с другими явлениями, причем каждое из них представляет собой единство составляющих его частей и свойств. Для того чтобы познать какое-либо явление, необходимо изучить его не только во всех сложных взаимоотношениях с окружающими явлениями-факторами, но также во взаимосвязи всех его сторон.

Если всеобщая связь и взаимозависимость явлений составляют один из наиболее общих законов, то основной задачей науки является изучение этой взаимосвязи.

В математической статистике взаимосвязь явлений изучается методом корреляции. Термин корреляция происходит от английского слова correlation — соотношение, соответствие. Особенность изучения связи явлений методом корреляции состоит в том, что нельзя изолировать влияние посторонних факторов либо потому, что эти факторы неизвестны, либо потому, что их изоляция невозможна. Поэтому метод корреляции применяется для того, чтобы при сложном взаимодействии посторонних влияний выяснить, какова была бы зависимость между результатом фактором, если бы посторонние факторы не изменялись и своим изменением не искажали основную зависимость. При этом небольшое число наблюдений не дает возможности обнаружить закономерность связи.

Первая задача корреляции заключается в выявлении на основе наблюдения над большим количеством фактов того, как изменяется в среднем результативный признак в связи с изменением данного фактора. Это изменение предполагает условие неизменности ряда других факторов, хотя искажающее влияние этих других факторов на самом деле имеет место. Вторая задача заключается в определении степени влияния искажающих факторов.

Первая задача решается нахождением уравнения связи.

Вторая задача решается при помощи различных показателей тесноты связи.

Такими показателями являются меры тесноты связи, найденные разными исследователями, а также коэффициент корреляции и корреляционное отношение.

Результативный и факториальный признаки

При изучении влияния одних признаков явлений на другие из цепи признаков, характеризующих данное явление, выделяются два признака — факториальный и результативный. Необходимо установить, какой из признаков является факториальным и какой результативным. В этом помогает прежде всего логический анализ.

Пример. Себестоимость промышленной продукции отдельного предприятия зависит от многих факторов, в том числе от объема продукции на данном предприятии. Себестоимость продукции выступает в этом случае как результативный признак, а объем продукции — как факториальный.

Другой пример. Чтобы судить о преимуществах крупных предприятий перед мелкими, рассмотрим, как увеличивается производительность труда рабочих крупных предприятий, и выявим зависимость производительности труда от увеличения размеров предприятия.

Таблица!

Группировка магазинов Министерства торговли по числу рабочих мест на 1 января 1960 г.1

Группы магазинов по числу рабочих мест Число магазинов Товарооборот в расчете на одного работника за квартал (в тыс. руб.)

Всего 68 375 117

Из них

с числом рабочих мест:

  • с 1 19 893 109
  • с 2 18 030 108
  • с 3—4 16 508 108
  • с 5—7 8 321 111
  • с 8—10 2 868 118
  • с 11 — 15 1 559 122
  • с 16 и более 1 196 139
  • J

Группировка показывает прямую зависимость производительности труда торговых работников, выражающуюся в товарообороте, приходящегося на одного работника, от размера магазина. Признак группировки — число рабочих мест — является факториальным, товарооборот — результативным признаком.

От размеров производства зависит также производительность оборудования, о чем свидетельствует следующая таблица:

Из таблицы ясно видна связь между размерами печей и их производительностью. Эта связь прямая: чем крупнее печь, тем она производительнее.

Однако зависимость результативного признака (суточного съема стали) от факториального носит не обязательный характер. Если в общей массе мы наблюдаем эту связь, то в отдельных группах бывают и отступления от общей закономерности. Такие отступления—характерная особенность статистической связи вообще, о которой будет рассказано ниже.

Группировки позволяют выявить и зависимость нескольких результативных признаков от одного факториального. Рассмотрим табл. 3.

В этой таблице мы видим зависимость двух результативных признаков: товарооборота на одного работника и товарных запасов—от размеров магазинов. Зависимость товарооборота от размеров магазина прямая, а зависимость товарных остатков от размеров магазина — обратная. В первом случае она растет с ростом размеров магазина, во втором уменьшается. Однако то и другое благоприятно.

Графическое изображение связи

Графическое изображение изучаемых явлений позволяет не только установить наличие или отсутствие связи между ними, но и изучить характер этой связи, иначе говоря изучить форму связи и ее тесноту.

Имея перед собой числовые характеристики факториального и результативного признаков одного и того же явления, можно каждую пару чисел изобразить в виде точки на плоскости. Для этого на плоскости берем две взаимно перпендикулярные линии и образуем систему координат. В этой системе по оси абсцисс откладываем значения факториального признака, а по оси ординат— значения результативного признака. Каждая пара чисел дает при этом точку на плоскости координатного поля.

Возьмем, например, группировку магазинов по числу рабочих мест, данную на стр. 239, и будем откладывать число рабочих мест по горизонтальной оси (оси Ох), а товарооборот в расчете на одного работника — по вертикальной оси (оси Оу). Будем иметь ряд точек, соединив которые получим ломаную линию, которая называется ломаной регрессии (см. график 1).

Как видно из графика, с ростом числа рабочих мест в магазине растет и товарооборот, приходящийся на одного работника, что говорит о связи между этими признаками, причем связи прямой. График подчеркивает эту зависимость ходом ломаной линии из нижнего угла в верхний правый угол.

Такого же рода зависимость будем наблюдать на графике 2, изучая связь между величиной мартеновских печей по площади пода и среднесуточным съемом стали с 1 пода. Как и в предыдущем примере, факториальный признак — величину площади пода — будем откладывать на оси абсцисс, а результативный — среднесуточный съем стали с 1 пода — на оси ординат.

Здесь также ясно выраженная прямая зависимость между результативным и факториальным признаками.

По-другому будет выглядеть график зависимости товарных запасов от размера товарооборота магазина.

Здесь мы наблюдаем ярко выраженную обратную связь между признаками: падение товарных запасов сопровождается ростом размера магазина по товарообороту.

Графический метод наглядно иллюстрирует зависимость, выявленную группировкой. Недостаток графического метода изучения связи заключается в том, что он позволяет выявить связь лишь между двумя признаками.

Функциональные и статистические связи

До сих пор говорилось о связях между явлениями и их признаками без объяснения формы и степени этих связей. В приведенных примерах связи носят логически обоснованный характер, но числовое выражение этих связей говорит о том, что они проявляются не всегда одинаково. В определенных случаях имеются отступления от наблюдаемых общих закономерностей. В приведенной на стр. 240 таблице о среднесуточном съеме стали с 1 пода печи наблюдается зависимость съема стали от размера печи по площади пода, но эта зависимость за 1955 г. искажена показателями 5-й группы, где съем стали значительно ниже, чем в 4-й группе. Если бы рассматривалась при этом каждая печь в отдельности, то это несоответствие установленному правилу зависимости проявлялось бы неоднократно. Но средние величины съема стали, вычисленные на основании данных довольно большого числа печей в группе, говорят о явно выраженной зависимости. Связи между явлениями, или их признаками. проявляющиеся в изменении в зависимости от одного признака характеристик распределения (из которых главная — средняя) другого признака, называются связями статистическими.

Статистические связи характеризуются тем, что в них результативный признак не полностью определяется влиянием признака факториального. Это влияние проявляется лишь в среднем, а в отдельных случаях получаются результаты, даже противоречащие установленной связи.

В отличие от статистических связей связи функциональные характеризуются тем, что при таких связях факториальный признак полностью определяет величину результативного признака.

Функциональные связи почти не встречаются в явлениях общественной жизни, отличающихся сложностью и многообразием существующих и проявляющихся взаимосвязей. Но во многих явлениях в основе статистических связей лежат функциональные связи. Связь функциональная может показывать зависимость между результативным признаком и несколькими аргументами. Так, площадь прямоугольника зависит от длины его двух сторон, путь, проходимый телом, зависит от скорости его движения и времени движения и т. д.

Уравнение связи

Наблюдая статистическую связь между двумя признаками, математическая статистика стремится придать этой связи форму функциональной, т. е. связи, выражаемой при помощи математической функции.

На помощь приходит ее графическое изображение при отыскании нужной функции связи. При этом необходимо стремиться найти такую функцию, которая давала бы наименьшее отклонение от полученных при наблюдении значений их признаков, которая выражала бы основную зависимость, проявляющуюся в эмпирическом материале. Уравнение этой функции будет уравнением связи между результативным и факториальным признаками.

Уравнение связи находится с помощью способа наименьших квадратов, который требует, чтобы сумма квадратов отклонений эмпирических значений от значений, получаемых на основании уравнения связи, была минимальной.

Применение способа наименьших квадратов позволяет находить параметры уравнения связи при помощи решения системы так называемых нормальных уравнений, различных для связи каждого вида.

Чтобы отметить, что зависимость между двумя признаками выражается в среднем, значения результативного признака, найденные по уравнению связи, обозначаются

Зная уравнение связи, можно вычислить заранее среднее значение результативного признака, когда значение факториального признака известно. Таким образом, уравнение связи является методом обобщения наблюдаемых статистических связей, методом их изучения.

Применение той или иной функции в качестве уравнения связи разграничивает связи по их форме: линейную связь и криволинейную связь (параболическую, гиперболическую и др.).

Рассмотрим уравнения связи для зависимостей от одного признака при разных формах связи (линейной, криволинейной параболической, гиперболической) и для множественной связи.

Линейная зависимость

Уравнение связи как уравнение прямой применяется в случае равномерного нарастания результативного признака с увеличением признака факториального. Такая зависимость будет зависимостью линейной (прямолинейной).

Параметры уравнения прямой линии находятся путем решения системы нормальных уравнений, получаемых по способу наименьших квадратов:

где n — число полученных при наблюдении пар взаимосвязанных величин; — сумма значений факториального признака;

— сумма квадратов значений факториального признака;

— сумма значений результативного признака; — сумма произведений значений факториального признака на значения результативного признака.

Примером расчета параметров уравнения и средних значений результативного признака может служить следующая таблица, являющаяся результатом группировки по факториальному признаку и подсчета средних по результативному признаку.

Группировка предприятий по стоимости основных средств и подсчет сумм необходимы для уравнения связи.

Из таблицы находим: 132,0. Строим систему двух уравнений с двумя неизвестными:

Поделив каждый член в обоих уравнениях на коэффициенты при получим:

Вычтем из второго уравнения первое: Подставив значения в первое уравнение найдем

Уравнение связи примет вид: Подставив в это уравнение соответствующие х, получим значения результативного признака, отражающие среднюю зависимость у от х в виде корреляционной зависимости.

Заметим, что суммы, исчисленные по уравнению и фактические, равны между собой. Изображение фактических и вычисленных значений на графике 4 показывает, что уравнение связи отображает наблюденную зависимость в среднем.

Параболическая зависимость

Параболическая зависимость, выражаемая уравнением параболы 2-го порядка имеет место при ускоренном возрастании или убывании результативного признака в сочетании с равномерным возрастанием факториального признака.

Параметры уравнения параболы вычисляются путем решения системы 3 нормальных уравнений:

Возьмем для примера зависимость месячного выпуска продукции (у) от величины стоимости основных средств (х). Оба показателя округлены до миллионов рублей. Расчеты необходимых сумм приведем в таблице 5.

По данным таблицы, составляем систему уравнений:

После деления всех уравнений на коэффициенты при получим:

Вычтя из второго уравнения первое и из третьего второе, получим два новых уравнения с двумя неизвестными:

Полученные уравнения снова разделим на коэффициенты при

Следовательно,

Запишем уравнение параболы, выражающей связь между х и у.

Графическое сопоставление опытных данных и данных расчета (см. график 5) показывает почти полное совпадение хода обеих линий, что говорит о хорошем воспроизведении опытных данных расчетными средними значениями результативного признака.

В практике изучения связи между признаками, кроме параболы 2-го порядка, применяются параболы и более высоких порядков. Чем выше порядок параболы, тем точнее он воспроизводит опытные данные.

Если уравнение связи представляет собой параболу 3-го порядка то система нормальных уравнений примет вид:

Имея соответствующие хну, можем составить Дополнительную расчетную таблицу по следующей схеме:

которая используется для нахождения нужных сумм. Решив систему 4 уравнений, найдем параметры и, следовательно, уравнение связи.

Уравнение гиперболы

Обратная связь указывает на убывание результативного признака при возрастании факториального. Такова линейная связь при отрицательном значении В ряде других случаев обратная связь может быть выражена уравнением гиперболы

Параметры уравнения гиперболы находятся из системы нормальных уравнений:

где — сумма величин, обратных значениям факториального признака, а — сумма их квадратов.

Примером расчета обратной связи по гиперболе может служить следующая таблица:

Составив по данным таблицы систему уравнений и разделив каждый член обоих уравнений на коэффициенты при а, получим:

Находим вычитанием из второго уравнения первого величину

Подставив вместо его значение, получим

Запишем уравнение связи в общем виде затем, подставив каждое значение х в уравнение, находим по любой строке таблицы. Строим ломаную по парам х и у и кривую по х и . Ломаная и кривая очень близки друг к другу.

Корреляционная таблица

При большом объеме наблюдений, когда число взаимосвязанных пар велико, парные данные легко могут быть расположены в корреляционной таблице, являющейся наиболее удобной формой представления значительного количества пар чисел.

В корреляционной таблице один признак располагается в строках, а другой — в колонка таблицы. Число, расположенное в клетке на пересечении графы и колонки, показывает, как часто встречается данное значение результативного признака в сочетании с данным значением факториального признака.

Для простоты расчета возьмем небольшое число наблюдений на 20 предприятиях за средней месячной выработкой продукции на одного рабочего (тыс. руб. — у) и за стоимостью основных производственных средств (млн. руб. — х).

В обычной парной таблице эти сведения располагаются так:

Сведем эти данные в корреляционную таблицу.

Итоги строк у показывают частоту признака итоги граф х — частоту признака Числа, стоящие в клетках корреляционной таблицы, являются частотами, относящимися к обоим признакам и обозначаются

Корреляционная таблица даже при поверхностном знакомстве дает общее представление о прямой и обратной связи. Если частоты расположены по диагонали вниз направо, то связь между признаками прямая (при увеличивающихся значениях признака в строках и графах). Если же частоты расположены по диагонали вверх направо, то связь обратная.

Для предварительного суждения о связи по корреляционной таблице можно для каждого столбца рассчитать средние значения Так, в первом столбце х = 9,9, а имеет лишь одно значение, равное 0,8. Найдем среднее значение для второго столбца. Оно будет равно:


Следовательно, при Выпишем все значения х и соответствующие им

Зависимость, выраженная в таблице, более ярко и убедительно выступит в «ломаной регрессии», когда каждую пару чисел нанесем на график (см. график 7).

По корреляционной таблице можно вести расчеты параметров уравнения связи, как уравнения прямой, так и уравнений параболы и гиперболы. При этом необходимо учитывать, что сочетание каждой пары значений может встречаться не один, а несколько раз. Сами значения хну необходимо взвешивать, т. е. умножать на соответствующие частоты. Для самого признака х частота будет обозначаться для признака Частоту сочетаний обозначим

Ввиду сказанного мы можем систему нормальных уравнений написать так, чтобы были учтены веса. Тогда для линейной зависимости система нормальных уравнений примет вид:

где N — число произведенных наблюдений (число пар). В приведенной корреляционной таблице N = 20. будет суммой произведений соответствующих х на их частоты. В данной таблице эта сумма составит:

9,9 +10,0 • 4 +10,1 • 4 + 10,2 • 4 +10,3 • 1 +10,4 • 3 +10,5 • 3 = 204.

—сумма произведений у на соответствующие частоты. В нашем примере она равна:

включает сумму произведений всех х на у и на для тех клеток корреляционной таблицы, в которых записаны частоты. Рассчитаем суммы произведений для 1-й и 2-й строки

  • Для 1 -и строки:
  • Для 2-й строки:

Нетрудно заметить, что в каждой строке у повторяется столько раз, сколько раз мы его суммируем, а, следовательно, у можно вынести за скобку.

  • Для 1-й строки: 0,8 (9,9 • 1 +10,0 • 2) =23,92.
  • Для 2-й строки:

Следовательно, сумма произведений может быть записана при постоянном у, как Заметим, что сумма произведений может быть записана и рассчитана как произведение

Продолжим расчет для последующих строк.

  • Для 3-й строки
  • Для 4-й строки
  • Для 5-й строки
  • Для 6-й строки

Общая сумма по всем строкам

Система нормальных уравнений может быть записана по результатам подсчета в таком виде:

Для расчета параметров уравнения линейной связи делим каждое из уравнений на коэффициенты при

Уравнение связи определяет среднюю зависимость выработки рабочего от стоимости основных средств. Вычислительная работа облегчается, если в самой корреляционной таблице путем записи дополнительных граф и строк производить нужные подсчеты для решения системы уравнений.

Число наблюдений N может быть подсчитано и по столбцу как его сумма. Она равна итогу по строке Для определения необходимо ввести новую строку Итог этой строки и дает искомую сумму.

Следующая дополнительная строка представляет возможность определить Далее, и может быть определена на основе расчета двух дополнительных граф:

В корреляционной таблице (см. табл. 8) в последних строках дается расчет для построения ломаной регрессии — для построения прямой (см. график 7).

Корреляционная таблица позволяет вычислять уравнение связи для любой формы: прямой, параболы, гиперболы и др. Однако в подобной таблице видна зависимость результативного признака лишь от одного факториального.

Зависимость результативного признака от двух или более факториальных признаков носит название множественной связи.

Множественная связь

Исследование зависимости результативного признака от двух или нескольких факториальных признаков возможно при помощи уравнения множественной связи.

В простейшем уравнении множественной связи предполагается, что зависимость между признаками линейная. Сначала рассмотрим линейную зависимость результативного признака (у) от двух факториальных (х, z). Уравнение связи в этом случае выразится формулой Параметры этого уравнения находятся при решении системы нормальных уравнений, получаемых для способа наименьших квадратов

где п — число одновременных наблюдений по трем признакам;

—суммы соответствующих значений по этим признакам.

Все расчеты удобно сосредоточить в специальной таблице, как это делается в приводимом ниже примере.

Рассмотрим зависимость средней урожайности ячменя (у) на равных участках от количества внесенных минеральных удобрений (х) и количества выпавших в период цветения осадков (z).

Средняя урожайность исчислялась по участкам с равным количеством внесенных удобрений и с равным количеством выпавших осадков.

Пользуясь данными таблицы, составляем систему трех уравнений:

Поделив все члены уравнений на коэффициенты при получим:

Вычитая из второго уравнения сначала первое, а затем третье, получим 2 уравнения с двумя неизвестными:

Делим каждый член обоих уравнений на коэффициенты при

Уравнение связи, определяющее зависимость результативного признака (у) от двух факториальных

Вычислив по этому уравнению при соответствующих х и z величины замечаем, что суммы опытных данных (y) и расчетных данных совпадают, а отдельные значения их мало отличаются друг от друга.

Найдем уравнение связи между урожайностью пшеницы на Безенчукской опытной станции и тремя факторами (х, z, v).

Статистические данные, полученные в результате наблюдения, и расчеты представлены в табл. 10, откуда возьмем необходимые данные для составления системы нормальных уравнений:

Следовательно,, корреляционное уравнение будет:

Расширив число факториальных признаков, можно найти уравнение множественной связи для 4, 5, 6 и т. д. признаков. При этом необходимо брать только такие признаки, которые оказывают существенное влияние на величину результативного признака, ибо учет несущественных, второстепенных признаков лишь увеличивает расчетную работу при нахождении уравнения связи, а не приближает к более полному изучению связи.

Если число факториальных признаков возрастает, возрастает и число членов уравнения связи. Так, для трех факториальных признаков линейное уравнение связи будет записано формулой:

где параметры уравнения находятся путем решения системы четырех нормальных уравнений:


Построив соответствующую таблицу, получим в ней необходимые суммарные данные для приведенной системы уравнений (см. табл. 10).

Мерой существенности влияния того или иного факториального признака на результативный являются показатели тесноты связи.

В настоящем издании мы рассмотрим эмпирические меры тесноты связи, полученные разными исследователями, и меры тесноты связи, основанные на измерении вариации.

Эмпирические меры тесноты связи

Эмпирические меры тесноты связи позволяют оценить степень связи между явлениями или факторами, находящимися в зависимости один от другого. Эмпирические меры получены различными исследователями, занимавшимися статистической обработкой фактического материала. Они получены ранее, чем был открыт метод корреляции. Практическое пользование эмпирическими показателями довольно удобно.

К эмпирическим мерам тесноты относятся:

  • а) коэффициент ассоциации:
  • б) коэффициенты взаимной напряженности;
  • в) коэффициент Фехнера;
  • Г) коэффициент корреляции рангов;

Рассмотрим каждый из них.

а) Коэффициент ассоциации. Коэффициент ассоциации как мера тесноты связи применяется для изучения связи двух качественных признаков, состоящих только из двух групп. Для его вычисления строится четырехклеточная таблица корреляции, которая выражает связь между двумя явлениями, каждое из которых, в свою очередь, должно быть альтернативным, т. е. состоящим только из двух видов, качественно отличных друг от друга. Например, при изучении зависимости урожая от количества внесенных в почву удобрений выделяем по урожайности и по количеству внесенных удобрений лишь по две группы. При этом условии можно построить следующую четырехклеточную таблицу.

Числа, стоящие на пересечении строк и граф — a,b,c,d, показывают, сколько участков встречается с тем и другим количеством удобрений, внесенным в почву, с той и другой урожайностью.

Мера тесноты связи — коэффициент ассоциации — исчисляется по формуле:

Заполнив клетки конкретными числовыми данными, получим следующую четырехклеточную таблицу, где числа, стоящие в клетках, — гектары посевов.

Коэффициент ассоциации равен:
что говорит о достаточно тесной прямой связи между урожайностью и степенью удобрения почв.

Коэффициент ассоциации может иметь и отрицательные значения, когда ad

При копировании любых материалов с сайта evkova.org обязательна активная ссылка на сайт www.evkova.org

Сайт создан коллективом преподавателей на некоммерческой основе для дополнительного образования молодежи

Сайт пишется, поддерживается и управляется коллективом преподавателей

Whatsapp и логотип whatsapp являются товарными знаками корпорации WhatsApp LLC.

Cайт носит информационный характер и ни при каких условиях не является публичной офертой, которая определяется положениями статьи 437 Гражданского кодекса РФ. Анна Евкова не оказывает никаких услуг.

Парная линейная регрессия. Задачи регрессионного анализа

Будут и задачи для самостоятельного решения, к которым можно посмотреть ответы.

Понятие линейной регрессии. Парная линейная регрессия

Линейная регрессия — выраженная в виде прямой зависимость среднего значения какой-либо величины от некоторой другой величины. В отличие от функциональной зависимости y = f(x) , когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при линейной регрессии одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y.

Если в результате наблюдения установлено, что при каждом определённом значении x существует сколько-то (n) значений переменной y, то зависимость средних арифметических значений y от x и является регрессией в статистическом понимании.

Если установленная зависимость может быть записана в виде уравнения прямой

то эта регрессионная зависимость называется линейной регрессией.

О парной линейной регрессии говорят, когда установлена зависимость между двумя переменными величинами (x и y). Парная линейная регрессия называется также однофакторной линейной регрессией, так как один фактор (независимая переменная x) влияет на результирующую переменную (зависимую переменную y).

В уроке о корреляционной зависимости были разобраны примеры того, как цена на квартиры зависит от общей площади квартиры и от площади кухни (две различные независимые переменные) и о том, что результаты наблюдений расположены в некотором приближении к прямой, хотя и не на самой прямой. Если точки корреляционной диаграммы соединить ломанной линией, то будет получена линия эмпирической регрессии. А если эта линия будет выровнена в прямую, то полученная прямая будет прямой теоретической регрессии. На рисунке ниже она красного цвета (для увеличения рисунка щёлкнуть по нему левой кнопкой мыши).

По этой прямой теоретической регрессии может быть сделан прогноз или восстановление неизвестных значений зависимой переменной по заданным значениям независимой переменной.

В случае парной линейной регрессии для данных генеральной совокупности связь между независимой переменной (факториальным признаком) X и зависимой переменной (результативным признаком) Y описывает модель

,

— свободный член прямой парной линейной регрессии,

— коэффициент направления прямой парной линейной регрессии,

— случайная погрешность,

N — число элементов генеральной совокупности.

Уравнение парной линейной регрессии для генеральной совокупности можно построить, если доступны данные обо всех элементах генеральной совокупности. На практике данные всей генеральной совокупности недоступны, но доступны данные об элементах некоторой выборки.

Поэтому параметры генеральной совокупности оценивают при помощи соответствующих параметров соответствующей выборки: свободный член прямой парной линейной регрессии генеральной совокупности заменяют на свободный член прямой парной линейной регрессии выборки , а коэффициент направления прямой парной линейной регрессии генеральной совокупности — на коэффициент направления прямой парной линейной регрессии выборки .

В результате получаем уравнение парной линейной регрессии выборки

— оценка полученной с помощью модели линейной регрессии зависимой переменной Y,

— погрешность,

n — размер выборки.

Чтобы уравнение парной линейной регрессии было более похоже на привычное уравнение прямой, его часто также записывают в виде

.

Уравнение парной линейной регрессии и метод наименьших квадратов

Определение коэффициентов уравнения парной линейной регрессии

Если заранее известно, что зависимость между факториальным признаком x и результативным признаком y должна быть линейной, выражающейся в виде уравнения типа , задача сводится к нахождению по некоторой группе точек наилучшей прямой, называемой прямой парной линейной регрессии. Следует найти такие значения коэффициентов a и b , чтобы сумма квадратов отклонений была наименьшей:

.

Если через и обозначить средние значения признаков X и Y,то полученная с помощью метода наименьших квадратов функция регрессии удовлетворяет следующим условиям:

  • прямая парной линейной регрессии проходит через точку ;
  • среднее значение отклонений равна нулю: ;
  • значения и не связаны: .

Условие метода наименьших квадратов выполняется, если значения коэффициентов равны:

,

.

Пример 1. Найти уравнение парной линейной регрессии зависимости между валовым внутренним продуктом (ВВП) и частным потреблением на основе данных примера урока о корреляционной зависимости (эта ссылка, которая откроется в новом окне, потребуется и при разборе следующих примеров).

Решение. Используем рассчитанные в решении названного выше примера суммы:

Используя эти суммы, вычислим коэффициенты:

Таким образом получили уравнение прямой парной линейной регрессии:

Составить уравнение парной линейной регрессии самостоятельно, а затем посмотреть решение

Пример 2. Найти уравнение парной линейной регрессии для выборки из 6 наблюдений, если уже вычислены следующие промежуточные результаты:

;

;

;

;

Анализ качества модели линейной регрессии

Метод наименьших квадратов имеет по меньшей мере один существенный недостаток: с его помощью можно найти уравнение линейной регрессии и в тех случаях, когда данные наблюдений значительно рассеяны вокруг прямой регрессии, то есть находятся на значительном расстоянии от этой прямой. В таких случаях за точность прогноза значений зависимой переменной ручаться нельзя. Существуют показатели, которые позволяют оценить качество уравнения линейной регрессии прежде чем использовать модели линейной регрессии для практических целей. Разберём важнейшие из этих показателей.

Коэффициент детерминации

Коэффициент детерминации принимает значения от 0 до 1 и в случае качественной модели линейной регрессии стремится к единице. Коэффициент детерминации показывает, какую часть общего рассеяния зависимой переменной объясняет независимая переменная:

,

— сумма квадратов отклонений, объясняемых моделью линейной регрессии, которая характеризует рассеяние точек прямой регрессии относительно арифметического среднего,

— общая сумма квадратов отклонений, которая характеризует рассеяние зависимой переменной Y относительно арифметического среднего,

— сумма квадратов отклонений ошибки (не объясняемых моделью линейной регрессии), которая характеризует рассеяние зависимой переменной Y относительно прямой регресии.

Пример 3. Даны сумма квадратов отклонений, объясняемых моделью линейной регрессии (3500), общая сумма квадратов отклонений (5000) и сумма квадратов отклонений ошибки (1500). Найти коэффициент детерминации двумя способами.

F-статистика (статистика Фишера) для проверки качества модели линейной регрессии

Минимальное возможное значение F-статистики — 0. Чем выше значение статистики Фишера, тем качественнее модель линейной регрессии. Этот показатель представляет собой отношение объясненной суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы):

где m — число объясняющих переменных.

Сумма квадратов остатков

Сумма квадратов остатков (RSS) измеряет необъясненную часть дисперсии зависимой переменной:

остатки — разности между реальными значениями зависимой переменной и значениями, оценёнными уравнением линейной регрессии.

В случае качественной модели линейной регрессии сумма квадратов остатков стремится к нулю.

Стандартная ошибка регрессии

Стандартная ошибка регрессии (SEE) измеряет величину квадрата ошибки, приходящейся на одну степень свободы модели:

Чем меньше значение SEE, тем качественнее модель.

Пример 4. Рассчитать коэффициент детерминации для данных из примера 1.

Решение. На основании данных таблицы (она была приведена в примере урока о корреляционной зависимости) получаем, что SST = 63 770,593 , SSE = 10 459,587 , SSR = 53 311,007 .

Можем убедиться, что выполняется закономерность SSR = SSTSSE :

Получаем коэффициент детерминации:

.

Таким образом, 83,6% изменений частного потребления можно объяснить моделью линейной регресии.

Интерпретация коэффициентов уравнения парной линейной регрессии и прогноз значений зависимой переменной

Итак, уравнение парной линейной регрессии:

.

В этом уравнении a — свободный член, b — коэффициент при независимой переменной.

Интерпретация свободного члена: a показывает, на сколько единиц график регрессии смещён вверх при x=0, то есть значение переменной y при нулевом значении переменной x.

Интерпретация коэффициента при независимой переменной: b показывает, на сколько единиц изменится значение зависимой переменной y при изменении x на одну единицу.

Пример 5. Зависимость частного потребления граждан от ВВП (истолкуем это просто: от дохода) описывается уравнением парной линейной регрессии . Сделать прогноз потребления при доходе в 20 000 у.е. Выяснить, на сколько увеливается потребление при увеличении дохода на 5000 у.е. Меняется ли потребление, если доход не меняется?

Решение. Подставляем в уравнение парной линейной регрессии x i = 20000 и получаем прогноз потребления при доходе в 20 000 у.е. y i = 17036,4662 .

Подставляем в уравнение парной линейной регрессии x i = 5000 и получаем прогноз увеличения потребления при увеличении дохода на 5000 у.е. y i = 4161,9662 .

Если доход не меняется, то x i = 0 и получаем, что потребление уменьшается на 129,5338 у.е.

Задачи регрессионного анализа

Регрессионный анализ — раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным.

Наиболее частые задачи регрессионного анализа:

  • установление факта наличия или отсутствия статистических зависимостей между переменными величинами;
  • выявление причинных связей между переменными величинами;
  • прогноз или восстановление неизвестных значений зависимых переменных по заданным значениям независимых переменных.

Также делаются проверки статистических гипотез о регрессии. Кроме того, при изучении связи между двумя величинами по результатам наблюдений в соответствии с теорией регрессии предполагается, что зависимая переменная имеет некоторое распределение вероятностей при фиксированном значении независимой переменной.

В исследованиях поведения человека, чтобы они претендовали на объективность, важно не только установить зависимость между факторами, но и получить все необходимые статистические показатели для результата проверки соответствующей гипотезы.

Проверка гипотезы о равенстве нулю коэффициента направления прямой парной линейной регрессии

Одна из важнейших гипотез в регрессионном анализе — гипотеза о том, что коэффициент направления прямой регрессии генеральной совокупности равен нулю.

Если это предположение верно, то изменения независимой переменной X не влияют на изменения зависимой переменной Y: переменные X и Y не коррелированы, то есть линейной зависимости Y от X нет.

рассматривают во взаимосвязи с альтернативной гипотезой

.

Статистика коэффициента направления

соответствует распределению Стьюдента с числом степеней свободы v = n — 2 ,

где — стандартная погрешность коэффициента направления прямой линейной регресии b 1 .

Доверительный интервал коэффициента направления прямой линейной регрессии:

.

Критическая область, в которой с вероятностью P = 1 — α отвергают нулевую гипотезу и принимают альтернативную гипотезу:

Пример 6. На основе данных из предыдущих примеров (о ВВП и частном потреблении) определить доверительный интервал коэффициента направления прямой линейной регресии 95% и проверить гипотезу о равенстве нулю коэффициента направления прямой парной линейной регрессии.

Можем рассчитать, что , а стандартная погрешность регрессии .

Таким образом, стандартная погрешность коэффициента направления прямой линейной регресии b 1 :

.

Так как и (находим по таблице в приложениях к учебникам по статистике), то доверительный интервал 95% коэффициента направления прямой парной линейной регрессии:

.

Так как гипотетическое значение коэффициента — нуль — не принадлежит доверительному интервалу, с вероятностью 95% можем отвергнуть основную гипотезу и принять альтернативную гипотезу, то есть считать, что зависимая переменная Y линейно зависит от независимой переменной X.


источники:

http://www.evkova.org/korrelyatsiya

http://function-x.ru/statistics_regression1.html