Как Рассчитать Коэффициент Детерминации в Excel • Сравнение пригодности

Коэффициент детерминации: формулы, расчет, интерпретация, примеры

В коэффициент детерминации — число от 0 до 1, которое представляет долю точек (X, Y), которые следуют за линией регрессии соответствия набора данных с двумя переменными.

Он также известен как степень соответствия и обозначается R 2 . Для его вычисления берется частное между дисперсией данных Ŷi, оцененных с помощью регрессионной модели, и дисперсией данных Yi, соответствующих каждому Xi данных.

Если 100% данных находятся на линии функции регрессии, то коэффициент детерминации будет равен 1.

Напротив, если для набора данных и некоторой функции настройки коэффициент R 2 оказывается равным 0,5, то можно сказать, что посадка на 50% удовлетворительна или хороша.

Аналогично, когда регрессионная модель возвращает значения R 2 ниже 0,5, это означает, что выбранная функция настройки не адаптируется удовлетворительно к данным, поэтому необходимо искать другую функцию настройки.

И когда ковариация или коэффициент корреляции стремится к нулю, то переменные X и Y в данных не связаны, и поэтому R 2 он также будет стремиться к нулю.

Как рассчитать коэффициент детерминации?

В предыдущем разделе было сказано, что коэффициент детерминации рассчитывается путем нахождения частного между дисперсиями:

-То переменной Yi, соответствующей каждой переменной Xi из N пар данных.

Из этой формулы следует, что R 2 представляет собой долю дисперсии, объясняемую регрессионной моделью. В качестве альтернативы R можно рассчитать 2 используя следующую формулу, полностью эквивалентную предыдущей:

Где Sε представляет собой дисперсию остатков εi = Ŷi — Yi, а Sy представляет собой дисперсию набора значений Yi данных. Для определения Ŷi применяется функция регрессии, что означает утверждение, что Ŷi = f (Xi).

Дисперсия набора данных Yi, где i от 1 до N, рассчитывается следующим образом:

А затем поступаем аналогичным образом для Sŷ или для Sε.

Иллюстративный случай

Чтобы показать детали того, как расчет коэффициент детерминации Мы возьмем следующий набор из четырех пар данных:

Для этого набора данных предлагается линейная регрессия, полученная с помощью метода наименьших квадратов:

Применяя эту функцию регулировки, крутящие моменты получаются:

Затем мы вычисляем среднее арифметическое для X и Y:

Sŷ = [(1,1 — 4,25) 2 + (3.2 – 4.25) 2 + (5.3 – 4.25) 2 +…. ….(7.4 – 4.25) 2 ] / (4-1)=

Интерпретация

Коэффициент детерминации для иллюстративного случая, рассмотренного в предыдущем сегменте, оказался равным 0,98. Другими словами, линейная регулировка через функцию:

Он на 98% надежен в объяснении данных, с которыми он был получен с использованием метода наименьших квадратов.

Помимо коэффициента детерминации, есть коэффициент линейной корреляции или также известный как коэффициент Пирсона. Этот коэффициент, обозначаемый какр, рассчитывается по следующей зависимости:

Здесь числитель представляет собой ковариацию между переменными X и Y, а знаменатель — это произведение стандартного отклонения для переменной X и стандартного отклонения для переменной Y.

Коэффициент Пирсона может принимать значения от -1 до +1. Когда этот коэффициент стремится к +1, существует прямая линейная корреляция между X и Y. Если вместо этого он стремится к -1, существует линейная корреляция, но когда X увеличивается, Y уменьшается. Наконец, он близок к нулю, между двумя переменными нет корреляции.

Следует отметить, что коэффициент детерминации совпадает с квадратом коэффициента Пирсона, только если первый был рассчитан на основе линейной аппроксимации, но это равенство не действует для других нелинейных аппроксимаций.

Примеры

— Пример 1

Группа старшеклассников решила определить эмпирический закон для периода маятника в зависимости от его длины. Для достижения этой цели они проводят серию измерений, в которых измеряют время колебания маятника на разной длине, получая следующие значения:

Требуется построить диаграмму рассеяния данных и выполнить линейную аппроксимацию через регрессию. Также покажите уравнение регрессии и его коэффициент детерминации.

Решение

Наблюдается довольно высокий коэффициент детерминации (95%), поэтому можно подумать, что линейная аппроксимация является оптимальной. Однако, если рассматривать точки вместе, оказывается, что они имеют тенденцию изгибаться вниз. Эта деталь не рассматривается в линейной модели.

— Пример 2

Для тех же данных в Примере 1 сделайте диаграмму рассеяния данных.В этом случае, в отличие от примера 1, требуется корректировка регрессии с использованием потенциальной функции.

Также покажите функцию подгонки и ее коэффициент детерминации R 2 .

Решение

Потенциальная функция имеет вид f (x) = Ax B , где A и B — константы, определяемые методом наименьших квадратов.

На предыдущем рисунке показана потенциальная функция и ее параметры, а также коэффициент детерминации с очень высоким значением 99%. Обратите внимание на то, что данные соответствуют кривизне линии тренда.

— Пример 3

Используя те же данные из примера 1 и примера 2, выполните полиномиальную аппроксимацию второй степени. Показать график, подобрать полином и коэффициент детерминации R 2 корреспондент.

Решение

При подборе полинома второй степени вы можете увидеть линию тренда, которая хорошо соответствует кривизне данных. Кроме того, коэффициент детерминации выше линейного соответствия и ниже потенциального соответствия.

Сравнение пригодности

Из трех показанных подгонок тот, у которого самый высокий коэффициент детерминации, является потенциальным подгонкой (пример 2).

Подгонка потенциала совпадает с физической теорией маятника, которая, как известно, устанавливает, что период маятника пропорционален квадратному корню из его длины, а коэффициент пропорциональности равен 2π / √g, где g — ускорение свободного падения.

Этот тип потенциального соответствия не только имеет самый высокий коэффициент детерминации, но и показатель степени и константа пропорциональности соответствуют физической модели.

Выводы

— Регулировка регрессии определяет параметры функции, которая направлена ​​на объяснение данных с использованием метода наименьших квадратов. Этот метод состоит в минимизации суммы квадратов разницы между значением Y настройки и значением Yi данных для значений Xi данных. Это определяет параметры функции настройки.

-Как мы видели, наиболее распространенной функцией настройки является линия, но она не единственная, поскольку настройки также могут быть полиномиальными, потенциальными, экспоненциальными, логарифмическими и другими.

-В любом случае коэффициент детерминации зависит от данных и типа корректировки и является показателем качества примененной корректировки.

-Наконец, коэффициент детерминации указывает процент общей изменчивости между значением Y данных по отношению к значению соответствия для данного X.

[expert_bq id=»1570″]В этом случае значение не является непосредственно мерой того, насколько хороши смоделированные значения, а скорее мерой того, насколько хороший предиктор может быть построен на основе смоделированных значений путем создания исправленного предиктора в форме α βƒ я. Если же вы хотите что-то уточнить, обращайтесь ко мне![/expert_bq] Сравнение Оценка Тейла – Сена (черный и простая линейная регрессия (синий) для набора точек с выбросы. Из-за множества выбросов ни одна из линий регрессии не соответствует данным, что измеряется тем фактом, что ни одна из них не дает очень высокого р 2 .
Разброс точек вдоль прямой линии

Линейный коэффициент корреляции Пирсона.

На основании коэффициента определяется одноименный индекс для подсчета производных бета и альфа в процентном соотношении, и если процент ниже установленного минимума (может измеряться в пределах 75%) к его соотношению, то установленные значения будут некорректными (альфа и β), т.е. дисперсия дохода во времени бета.

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: