Основные статистики и t-критерий Стьюдента
В ходе рассмотрения примера мы будем использовать вымышленные сведения, чтобы читатель мог провести необходимые преобразования самостоятельно.
Так, допустим, в ходе исследований изучали влияние препарата А на содержание вещества В (в ммоль/г) в ткани С и концентрацию вещества D в крови (в ммоль/л) у пациентов, разделенных по какому-то признаку Е на 3 группы равного объема (n = 10). Результаты такого выдуманного исследования приведены в таблице:
Хотим вас предупредить, что выборки объема 10 рассматриваются нами для простоты представления данных и вычислений, на практике такого объема выборок обычно оказывается недостаточно для формирования статистического заключения.
В качестве примера рассмотрим данные 1-го столбца таблицы.
Описательные статистики
Выборочное среднее
Среднее арифметическое, которое очень часто называют просто «среднее», получают путем сложения всех значений и деления этой суммы на число значений в наборе. Это можно показать с помощью алгебраической формулы. Набор n наблюдений переменной x можно изобразить как x1, x2, х3, . xn
Формула для определения среднего арифметического наблюдений (произносится «икс с чертой»):
Выборочная дисперсия
Выборочная дисперсия данного показателя равна s 2 = 3,2.
Среднеквадратичное отклонение
Стандартное (среднеквадратичное) отклонение — это положительный квадратный корень из дисперсии. На примере n наблюдений это выглядит следующим образом:
Мы можем представить себе стандартное отклонение как своего рода среднее отклонение наблюдений от среднего. Оно вычисляется в тех же единицах (размерностях), что и исходные данные.
s = sqrt ( s 2 ) = sqrt (3,2) = 1,79 [sqrt (x) — функция извлечения квадратного корня из х].
Коэффициент вариации
Если разделить стандартное отклонение на среднее арифметическое и выразить результат в процентах, то получится коэффициент вариации.
Ошибка выборочного среднего
1,79 / sqrt (10) = 0,57 [sqrt (x)- функция извлечения квадратного корня из х];
Коэффициент Стьюдента t (одновыборочный t-критерий)
Применяется для проверки гипотезы об отличии среднего значения от некоторого известного значения m
Количество степеней свободы рассчитывается как f=n-1.
В данном случае доверительный интервал для среднего заключен между границами 11,87 и 14,39.
Для уровня доверительной вероятности 95% m=11,87 или m=14,39, то есть= |13,1-11,82| = |13,1-14,38| = 1,28
Соответственно, в данном случае для числа степеней свободы f = 10 — 1 = 9 и уровня доверительной вероятности 95% t=2,26.
Диалог Основные статистики и таблицы
В модуле Основные статистики и таблицы выберем Описательные статистики.
Откроется диалоговое окно Описательные статистики.
Нажав на Ок, получим таблицы результатов с описательными статистиками выбранных переменных.
Чтобы посчитать t-критерий Стьюдента, в модуле Основные статистики и таблицы выберем Одновыборочный t-критерий.
Откроется диалоговое окно Одновыборочный t-критерий.
Предположим, нам известно, что среднее содержание вещества B в ткани С равно 11.
Таблица результатов с описательными статистиками и t-критерием Стьюдента выглядит следующим образом:
Нам пришлось отвергнуть гипотезу о том, что среднее содержание вещества В в ткани С равно 11.
Так как вычисленное значение критерия больше табличного (2,26), нулевая гипотеза отвергается на выбранном уровне значимости, и различия между выборкой и известной величиной признаются статистически значимыми. Таким образом, вывод о существовании различий, сделанный с помощью критерия Cтьюдента, подтверждается с помощью данного метода.
Выводы
Статистические критерии
Теперь нужно дать какой-то аргументированный ответ. Даем его с помощью статистического критерия. Соответственно теперь наступает самое важное: как выбрать статистический критерий? Я думаю, это будет темой отдельной статьи. Для корректности использования t-критерия Стьюдента лишь скажу, что нужно, чтобы:
Алгоритм расчета t-критерия Стьюдента для независимых выборок измерений
Определить критическое значение t-критерия с использованием таблицы 1 приложения, при заданном уровне значимости и степени свободы.
Сравнить расчетное и критическое значение t — критерия. Если расчетное значение больше или равно критическому, то гипотеза равенства средних значений в двух выборках изменений отвергается (Но). Во всех других случаях она принимается на заданном уровне значимости.
Пример. Две группы студентов обучались по двум различным методикам. В конце обучения с ними был проведен тест по всему курсу. Необходимо оценить, насколько существенны различия в полученных знаниях. Результаты тестирования представлены в таблице 4.
Рассчитаем выборочное среднее, дисперсию и стандартное отклонение:
По таблице 1 (см. приложение) находим критическое значение tk для уровня значимости р = 0,01
Алгоритм расчета t-критерия Стьюдента для зависимых выборок измерений
1. Определить расчетное значение t-критерия по формуле
, где
2. Рассчитать степень свободы f
3. Определить критическое значение t-критерия по таблице 1 приложения.
4. Сравнить расчетное и критическое значение t-критерия. Если расчетное значение больше или равно критическому, то гипотеза равенства средних значений в двух выборках изменений отвергается (Но). Во всех других случаях она принимается на заданном уровне значимости.
U—критерий Манна—Уитни
Критерий предназначен для оценки различий между двумя непараметрическими выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда n < 30.
Этот метод определяет, достаточно ли мала зона пересекающихся значений между двумя рядами. Чем меньше эта область, тем более вероятно, что различия достоверны. Эмпирическое значение критерия U отражает то, насколько велика зона совпадения между рядами. Поэтому чем меньше U, тем более вероятно, что различия достоверны.
НО: Уровень признака в группе 2 не ниже уровня признака в группе 1.
HI: Уровень признака в группе 2 ниже уровня признака в группе 1.
Алгоритм расчета критерия Манна-Уитни (u)
Перенести все данные испытуемых на индивидуальные карточки.
Пометить карточки испытуемых выборки 1 одним цветом, скажем красным, а все карточки из выборки 2 – другим, например, синим.
Разложить все карточки в единый ряд по степени нарастания признака, не считаясь с тем, к какой выборке они относятся, как если бы мы работали с одной большой выборкой.
Проранжировать значения на карточках, приписывая меньшему значению меньший ранг.
Вновь разложить карточки на две группы, ориентируясь на цветные обозначения: красные карточки в один ряд, синие – в другой.
Подсчитать сумму рангов отдельно на красных карточках (выборка 1) и на синих карточках (выборка 2). Проверить, совпадает ли общая сумма рангов с расчетной.
Определить большую из двух ранговых сумм.
nх – количество испытуемых в группе с большей суммой рангов.
9. Определить критические значения U по таблице 2 (см. приложение).
Если Uэмп.> Uкр0,05, то гипотеза Но принимается. Если Uэмп.≤ Uкр, то отвергается. Чем меньше значения U, тем достоверность различий выше.
Пример. Сравнить эффективность двух методов обучения в двух группах. Результаты испытаний представлены в таблице 5.
Как рассчитать базовую статистику в Excel: руководство для начинающих
Чтобы определить стандартное отклонение для набора, просто введите = STDEV.S () или же = STDEV.P () и вставьте диапазон чисел в скобки. Вы можете нажать и перетащить или ввести диапазон.