Хи-квадрат (χ²): распределение, как его вычислить, примеры
Доказательство Чи в квадрате или хи-квадрат (χ 2 , где χ — греческая буква под названием «хи») используется для определения поведения определенной переменной, а также когда вы хотите узнать, являются ли две или более переменных статистически независимыми.
Чтобы проверить поведение переменной, выполняемый тест называется критерий соответствия хи-квадрат. Чтобы выяснить, являются ли две или более переменных статистически независимыми, вызывается тест.хи квадрат независимости, также называется случайность.
Эти тесты являются частью теории статистических решений, в которой совокупность изучается и решения по ней принимаются на основе анализа одной или нескольких выборок, взятых из нее. Это требует определенных предположений о переменных, называемых гипотеза, что может быть правдой, а может и нет.
Есть несколько тестов, чтобы сопоставить эти предположения и определить, какие из них верны с определенной долей уверенности, включая тест хи-квадрат, который можно применять для сравнения двух и более популяций.
Как мы увидим, в двух выборках обычно возникают два типа гипотез относительно некоторого параметра совокупности: нулевая гипотеза, называемая Hили (выборки независимы), и альтернативная гипотеза, обозначенная как H1, (образцы коррелированы), что противоположно этому.
Когда используется тест хи-квадрат?
Тест хи-квадрат применяется к переменным, которые описывают такие качества, как пол, семейное положение, группа крови, цвет глаз и предпочтения различных типов.
-Проверьте, подходит ли распределение для описания переменной, которая называетсястепень соответствия. Используя критерий хи-квадрат, можно узнать, есть ли существенные различия между выбранным теоретическим распределением и наблюдаемым распределением частот.
-Узнать, независимы ли две переменные X и Y со статистической точки зрения. Это известно как тест на независимость.
Поскольку он применяется к качественным или категориальным переменным, тест хи-квадрат широко используется в социальных науках, менеджменте и медицине.
Условия его применения
Для его правильного применения есть два важных требования:
— Выборка должна быть достаточно большой, чтобы распределение хи-квадрат было действительным, в противном случае его значение будет завышено и приведет к отклонению нулевой гипотезы, хотя этого не должно быть.
Общее правило состоит в том, что если в сгруппированных данных появляется частота со значением меньше 5, она не используется. Если более одной частоты меньше 5, то они должны быть объединены в одну, чтобы получить частоту с числовым значением больше 5.
Распределение хи-квадрат
χ 2 это непрерывное распределение вероятностей. На самом деле есть разные кривые, в зависимости от параметра k называется степени свободы случайной величины.
Степени свободы
По мере увеличения степеней свободы распределение хи-квадрат стремится к нормальному, как видно из рисунка.
Для данного распределения степени свободы определяются через Таблица сопряженности, в которой записаны наблюдаемые частоты переменных.
Если в таблице есть F ряды и c столбцы, значение k это:
Формулировка гипотез
Когда критерий хи-квадрат подходит, формулируются следующие гипотезы:
-ЧАСили: переменная X имеет распределение вероятностей f (x) с конкретными параметрами y1, Y2…, Yп
Распределение вероятностей, принятое в нулевой гипотезе, может быть, например, известным нормальным распределением, а параметрами будут среднее значение μ и стандартное отклонение σ.
Кроме того, нулевая гипотеза оценивается с определенным уровнем значимости, то есть мерой ошибки, которая может быть совершена при отклонении ее как истинной.
Обычно этот уровень устанавливается на 1%, 5% или 10%, и чем он ниже, тем надежнее результат теста.
И если использовать критерий случайности хи-квадрат, который, как мы уже сказали, служит для проверки независимости между двумя переменными X и Y, гипотезы будут следующими:
Опять же, необходимо указать уровень значимости, чтобы знать меру ошибки при принятии решения.
Как рассчитывается статистика хи-квадрат?
Статистика хи-квадрат рассчитывается следующим образом:
Суммирование ведется от первого класса i = 1 к последнему, то есть i = k.
–Fили — наблюдаемая частота (взято из полученных данных).
–Fа также это ожидаемая или теоретическая частота (необходимо рассчитать на основе данных).
Чтобы принять или отвергнуть нулевую гипотезу, вычисляем χ 2 для наблюдаемых данных и сравнивается со значением, называемым критический квадрат хи, который зависит от степеней свободы k и уровень значимости α:
Если, например, мы хотим провести тест с уровнем значимости 1%, тогда α = 0,01, если будет 5%, то α = 0,05 и так далее. Мы определяем p, параметр распределения, как:
Эти критические значения хи-квадрат определяются по таблицам, содержащим совокупное значение площади. Например, для k = 1, что соответствует 1 степени свободы, и α = 0,05, что эквивалентно p = 1 — 0,05 = 0,95, значение χ 2 составляет 3,841.
Критерии приемки Hили
-Да χ 2 2 критический H принятоили, в противном случае он отклоняется (см. рисунок 1).
Пример расчета
В следующем приложении критерий хи-квадрат будет использоваться в качестве теста на независимость.
Предположим, что исследователи хотят знать, связано ли предпочтение черного кофе с полом человека, и уточнить ответ с уровнем значимости α = 0,05.
Для этого доступна выборка из 100 опрошенных людей и их ответы:
Шаг 1
-ЧАСили: пол и предпочтение черного кофе независимы.
-ЧАС1: вкус черного кофе зависит от пола человека.
Шаг 2
Рассчитайте ожидаемые частоты для распределения, для которого требуются итоги, добавленные в последней строке и в правом столбце таблицы. Каждая ячейка в красном поле имеет ожидаемое значение. Fа также, который рассчитывается путем умножения суммы вашей строки F на сумму столбца C, деленную на сумму выборки N:
-C1: (36 х 47) / 100 = 16,92
-C2: (64 х 47) / 100 = 30,08
-C3: (36 х 53) / 100 = 19,08
-C4: (64 х 53) / 100 = 33,92
Шаг 3
Затем для этого распределения необходимо вычислить статистику хи-квадрат по следующей формуле:
Шаг 4
Определить χ 2 критический, зная, что записанные данные находятся в f = 2 строках и c = 2 столбцах, следовательно, количество степеней свободы составляет:
Это означает, что мы должны искать в приведенной выше таблице значение χ 2 k, α = χ 2 1; 0.05 , который:
Шаг 5
Поскольку χ 2 2 критический Принимается нулевая гипотеза, и делается вывод о том, что предпочтение черного кофе не связано с полом человека, с уровнем значимости 5%.
[expert_bq id=»1570″]Мы можем суммировать собранные наблюдения в таблице с одной переменной, соответствующей столбцам, и другой переменной, соответствующей строкам. Если же вы хотите что-то уточнить, обращайтесь ко мне![/expert_bq] 5. В ячейке Н13 найдите общее количество наблюдений. Табличный курсор установите в ячейку Н13. На панели инструментов Стандартная нажмите кнопку Автосумма. Убедитесь, что диапазон суммирования указан правильно (Н4:Н12), и нажмите клавишу Enter. В ячейке Н13 появится число 55.
Критерий вилкоксона в excel как сделать
Мы можем суммировать собранные наблюдения в таблице с одной переменной, соответствующей столбцам, и другой переменной, соответствующей строкам. Каждая ячейка в таблице соответствует количеству или частоте наблюдений, которые соответствуют категориям строк и столбцов.