Значимость регрессионной модели
• Связь как синхронность (согласованность) – корреляционный анализ.
• Связь как зависимость (влияние) – регрессионный анализ (причинно-следственные связи).
• В регрессионном анализе один из признаков зависит от другого.
• Первый (зависимый) признак называется в регрессионном анализе результирующим , второй (независимый) – факторным .
• Не всегда можно однозначно определить, какой из признаков является независимым, а какой – зависимым. Часто связь может рассматриваться как двунаправленная.
• Определение силы (тесноты) и направления связи (dыявление наличия связи между признаками, диаграммы рассеяния)
Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели.
Однако иногда расположение точек на диаграмме рассеяния показывает нелинейную зависимость либо вообще отсутствие связи между признаками.
Линия регрессии и уравнение регрессии
• Вычисляемая с помощью метода наименьших квадратов прямая линия называется линией регрессии. Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями).
• Линия регрессии дает наилучшее приближенное описание линейной зависимости между двумя переменными.
• Как известно, прямая линия описывается уравнением вида:
где Y – результирующий признак, X – факторный признак, k и b – числовые параметры уравнения.
• Коэффициент k в уравнении регрессии называется коэффициентом регрессии.
• В общем случае коэффициент регрессии k показывает, как в среднем изменится результативный признак ( Y ), если факторный признак ( X ) увеличится на единицу .
• Коэффициент регрессии не симметричен , т.е. изменяется, если X и Y поменять местами.
• Единицей измерения коэффициента регрессии является отношение единицы измерения Y к единице измерения X
• Коэффициент регрессии изменяется при изменении единиц измерения X и Y .
коэффициент регрессии равен 2984. В каких единицах он измеряется?
• Поскольку результативный признак Y измеряется, например, в рублях, а факторный признак X, например, в количестве рабочих (чел.), то коэффициент регрессии измеряется в рублях на человека (руб. / чел.)
Сравнение коэффициентов корреляции и регрессии
МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ И РЕГРЕССИЯ
• Обычно на зависимую переменную действуют сразу несколько факторов, среди которых трудно выделить единственный или главный.
• При этом факторы, влияющие на зависимую переменную, как правило, не являются независимыми друг от друга.
• Уравнение парной регрессии для зависимости объема производства ( Y ) от числа рабочих ( X 1 ) имеет вид:
• Если построить уравнение парной регрессии для зависимости объема производства ( Y ) от мощности двигателей ( X 2 ), получим:
• Итак доход предприятия зависит одновременно от двух факторов производства – числа рабочих и энерговооруженности, однако эти факторы сами не являются независимыми друг от друга.
• Поэтому совокупная зависимость дохода от рабочих и мощности двигателей не есть простая сумма двух парных зависимостей.
• Следовательно, неверно , что суммарное влияние обоих факторов можно записать в виде суммы двух предыдущих уравнений:
Уравнение множественной линейной регрессии
b 1 , b 2 , … , b k соответствующие им коэффициенты регрессии
• Если коэффициент множественной корреляции вычислен на основе выборочных данных, то возможно, что его значение не отражает реальной связи между признаками, а получено в данной выборке случайно (при этом в генеральной совокупности признаки независимы).
• В основе проверки значимости регрессии лежит идея разложения дисперсии (разброса) результативного признака на факторную и остаточную дисперсии, т.е. объясненную (за счет независимых факторов) часть дисперсии и часть, оставшуюся необъясненной в рамках данной модели.
• Мерой значимости регрессии служит значение т.н. F- критерия – отношения факторной дисперсии к остаточной .
• Чем лучше регрессионная модель, тем выше доля факторной и ниже доля остаточной дисперсии.
• Для каждого значения F можно вычислить соответствующую вероятность. Если значение этой вероятности меньше принятого уровня значимости p или вероятности ошибки (в программе Statistica это 5% или 0,05), гипотеза об отсутствии линейной связи между результативным и факторными признаками отклоняется и регрессия признается значимой .
Регрессионный анализ в пакете EXCEL: Методическое указание к выполнению лабораторной работы, страница 2
Чтобы продемонстрировать работу надстройки, воспользуемся данными с предыдущей статьи, где парень и девушка делят столик в ванной. Введите данные нашего примера с ванной в столбцы А и В чистого листа.