Коэффициент детерминации: формулы, расчет, интерпретация, примеры
В коэффициент детерминации — число от 0 до 1, которое представляет долю точек (X, Y), которые следуют за линией регрессии соответствия набора данных с двумя переменными.
Он также известен как степень соответствия и обозначается R 2 . Для его вычисления берется частное между дисперсией данных Ŷi, оцененных с помощью регрессионной модели, и дисперсией данных Yi, соответствующих каждому Xi данных.
Если 100% данных находятся на линии функции регрессии, то коэффициент детерминации будет равен 1.
Напротив, если для набора данных и некоторой функции настройки коэффициент R 2 оказывается равным 0,5, то можно сказать, что посадка на 50% удовлетворительна или хороша.
Аналогично, когда регрессионная модель возвращает значения R 2 ниже 0,5, это означает, что выбранная функция настройки не адаптируется удовлетворительно к данным, поэтому необходимо искать другую функцию настройки.
И когда ковариация или коэффициент корреляции стремится к нулю, то переменные X и Y в данных не связаны, и поэтому R 2 он также будет стремиться к нулю.
Как рассчитать коэффициент детерминации?
В предыдущем разделе было сказано, что коэффициент детерминации рассчитывается путем нахождения частного между дисперсиями:
-То переменной Yi, соответствующей каждой переменной Xi из N пар данных.
Из этой формулы следует, что R 2 представляет собой долю дисперсии, объясняемую регрессионной моделью. В качестве альтернативы R можно рассчитать 2 используя следующую формулу, полностью эквивалентную предыдущей:
Где Sε представляет собой дисперсию остатков εi = Ŷi — Yi, а Sy представляет собой дисперсию набора значений Yi данных. Для определения Ŷi применяется функция регрессии, что означает утверждение, что Ŷi = f (Xi).
Дисперсия набора данных Yi, где i от 1 до N, рассчитывается следующим образом:
А затем поступаем аналогичным образом для Sŷ или для Sε.
Иллюстративный случай
Чтобы показать детали того, как расчет коэффициент детерминации Мы возьмем следующий набор из четырех пар данных:
Для этого набора данных предлагается линейная регрессия, полученная с помощью метода наименьших квадратов:
Применяя эту функцию регулировки, крутящие моменты получаются:
Затем мы вычисляем среднее арифметическое для X и Y:
Sŷ = [(1,1 — 4,25) 2 + (3.2 – 4.25) 2 + (5.3 – 4.25) 2 +…. ….(7.4 – 4.25) 2 ] / (4-1)=
Интерпретация
Коэффициент детерминации для иллюстративного случая, рассмотренного в предыдущем сегменте, оказался равным 0,98. Другими словами, линейная регулировка через функцию:
Он на 98% надежен в объяснении данных, с которыми он был получен с использованием метода наименьших квадратов.
Помимо коэффициента детерминации, есть коэффициент линейной корреляции или также известный как коэффициент Пирсона. Этот коэффициент, обозначаемый какр, рассчитывается по следующей зависимости:
Здесь числитель представляет собой ковариацию между переменными X и Y, а знаменатель — это произведение стандартного отклонения для переменной X и стандартного отклонения для переменной Y.
Коэффициент Пирсона может принимать значения от -1 до +1. Когда этот коэффициент стремится к +1, существует прямая линейная корреляция между X и Y. Если вместо этого он стремится к -1, существует линейная корреляция, но когда X увеличивается, Y уменьшается. Наконец, он близок к нулю, между двумя переменными нет корреляции.
Следует отметить, что коэффициент детерминации совпадает с квадратом коэффициента Пирсона, только если первый был рассчитан на основе линейной аппроксимации, но это равенство не действует для других нелинейных аппроксимаций.
Примеры
— Пример 1
Группа старшеклассников решила определить эмпирический закон для периода маятника в зависимости от его длины. Для достижения этой цели они проводят серию измерений, в которых измеряют время колебания маятника на разной длине, получая следующие значения:
Требуется построить диаграмму рассеяния данных и выполнить линейную аппроксимацию через регрессию. Также покажите уравнение регрессии и его коэффициент детерминации.
Решение
Наблюдается довольно высокий коэффициент детерминации (95%), поэтому можно подумать, что линейная аппроксимация является оптимальной. Однако, если рассматривать точки вместе, оказывается, что они имеют тенденцию изгибаться вниз. Эта деталь не рассматривается в линейной модели.
— Пример 2
Для тех же данных в Примере 1 сделайте диаграмму рассеяния данных.В этом случае, в отличие от примера 1, требуется корректировка регрессии с использованием потенциальной функции.
Также покажите функцию подгонки и ее коэффициент детерминации R 2 .
Решение
Потенциальная функция имеет вид f (x) = Ax B , где A и B — константы, определяемые методом наименьших квадратов.
На предыдущем рисунке показана потенциальная функция и ее параметры, а также коэффициент детерминации с очень высоким значением 99%. Обратите внимание на то, что данные соответствуют кривизне линии тренда.
— Пример 3
Используя те же данные из примера 1 и примера 2, выполните полиномиальную аппроксимацию второй степени. Показать график, подобрать полином и коэффициент детерминации R 2 корреспондент.
Решение
При подборе полинома второй степени вы можете увидеть линию тренда, которая хорошо соответствует кривизне данных. Кроме того, коэффициент детерминации выше линейного соответствия и ниже потенциального соответствия.
Сравнение пригодности
Из трех показанных подгонок тот, у которого самый высокий коэффициент детерминации, является потенциальным подгонкой (пример 2).
Подгонка потенциала совпадает с физической теорией маятника, которая, как известно, устанавливает, что период маятника пропорционален квадратному корню из его длины, а коэффициент пропорциональности равен 2π / √g, где g — ускорение свободного падения.
Этот тип потенциального соответствия не только имеет самый высокий коэффициент детерминации, но и показатель степени и константа пропорциональности соответствуют физической модели.
Выводы
— Регулировка регрессии определяет параметры функции, которая направлена на объяснение данных с использованием метода наименьших квадратов. Этот метод состоит в минимизации суммы квадратов разницы между значением Y настройки и значением Yi данных для значений Xi данных. Это определяет параметры функции настройки.
-Как мы видели, наиболее распространенной функцией настройки является линия, но она не единственная, поскольку настройки также могут быть полиномиальными, потенциальными, экспоненциальными, логарифмическими и другими.
-В любом случае коэффициент детерминации зависит от данных и типа корректировки и является показателем качества примененной корректировки.
-Наконец, коэффициент детерминации указывает процент общей изменчивости между значением Y данных по отношению к значению соответствия для данного X.
[expert_bq id=»1570″]В этом случае значение не является непосредственно мерой того, насколько хороши смоделированные значения, а скорее мерой того, насколько хороший предиктор может быть построен на основе смоделированных значений путем создания исправленного предиктора в форме α βƒ я. Если же вы хотите что-то уточнить, обращайтесь ко мне![/expert_bq] Сравнение Оценка Тейла – Сена (черный и простая линейная регрессия (синий) для набора точек с выбросы. Из-за множества выбросов ни одна из линий регрессии не соответствует данным, что измеряется тем фактом, что ни одна из них не дает очень высокого р 2 .Линейный коэффициент корреляции Пирсона.
На основании коэффициента определяется одноименный индекс для подсчета производных бета и альфа в процентном соотношении, и если процент ниже установленного минимума (может измеряться в пределах 75%) к его соотношению, то установленные значения будут некорректными (альфа и β), т.е. дисперсия дохода во времени бета.