Математическое ожидание
Основные числовые характеристики дискретных и непрерывных случайных величин: математическое ожидание, дисперсия и среднее квадратическое отклонение. Их свойства и примеры.
Определение 7.1. Математическим ожиданием дискретной случайной величины называ-ется сумма произведений ее возможных значений на соответствующие им вероятности:
Если число возможных значений случайной величины бесконечно, то , если полученный ряд сходится абсолютно.
Замечание 1. Математическое ожидание называют иногда взвешенным средним, так как оно приближенно равно среднему арифметическому наблюдаемых значений случайной величины при большом числе опытов.
Замечание 2. Из определения математического ожидания следует, что его значение не меньше наименьшего возможного значения случайной величины и не больше наибольше-го.
Замечание 3. Математическое ожидание дискретной случайной величины есть неслучай-ная (постоянная) величина. В дальнейшем увидим, что это же справедливо и для непре-рывных случайных величин.
Пример 1. Найдем математическое ожидание случайной величины Х – числа стандартных деталей среди трех, отобранных из партии в 10 деталей, среди которых 2 бракованных. Составим ряд распределения для Х. Из условия задачи следует, что Х может принимать значения 1, 2, 3. Тогда
Пример 2. Определим математическое ожидание случайной величины Х – числа бросков монеты до первого появления герба. Эта величина может принимать бесконечное число значений (множество возможных значений есть множество натуральных чисел). Ряд ее распределения имеет вид:
+ (при вычислении дважды использовалась формула суммы бесконечно убывающей геометрической прогрессии: , откуда ).
1) Математическое ожидание постоянной равно самой постоянной:
Доказательство. Если рассматривать С как дискретную случайную величину, принимающую только одно значение С с вероятностью р = 1, то М(С) = С?1 = С.
2) Постоянный множитель можно выносит за знак математического ожидания:
Доказательство. Если случайная величина Х задана рядом распределения
Определение 7.2. Две случайные величины называются независимыми, если закон распределения одной из них не зависит от того, какие значения приняла другая. В противном случае случайные величины зависимы.
Определение 7.3. Назовем произведением независимых случайных величин Х и Y случайную величину XY, возможные значения которой равны произведениям всех возможных значений Х на все возможные значения Y, а соответствующие им вероят-ности равны произведениям вероятностей сомножителей.
3) Математическое ожидание произведения двух независимых случайных величин равно произведению их математических ожиданий:
Доказательство. Для упрощения вычислений ограничимся случаем, когда Х и Y принимают только по два возможных значения:
Замечание 1. Аналогично можно доказать это свойство для большего количества возможных значений сомножителей.
Замечание 2. Свойство 3 справедливо для произведения любого числа независимых случайных величин, что доказывается методом математической индукции.
Определение 7.4. Определим сумму случайных величин Х и Y как случайную величину Х + Y, возможные значения которой равны суммам каждого возможного значения Х с каждым возможным значением Y; вероятности таких сумм равны произведениям вероятностей слагаемых (для зависимых случайных величин – произведениям вероятности одного слагаемого на условную вероятность второго).
4) Математическое ожидание суммы двух случайных величин ( зависимых или незави-симых ) равно сумме математических ожиданий слагаемых:
Замечание. Из свойства 4 следует, что сумма любого числа случайных величин равна сумме математических ожиданий слагаемых.
Пример. Найти математическое ожидание суммы числа очков, выпавших при броске пяти игральных костей.
Найдем математическое ожидание числа очков, выпавших при броске одной кости:
М(Х1) = (1 + 2 + 3 + 4 + 5 + 6)Тому же числу равно математическое ожидание числа очков, выпавших на любой кости. Следовательно, по свойству 4 М(Х)=
Для того, чтобы иметь представление о поведении случайной величины, недостаточно знать только ее математическое ожидание. Рассмотрим две случайные величины: Х и Y, заданные рядами распределения вида
Определение 7.5. Дисперсией (рассеянием) случайной величины называется математическое ожидание квадрата ее отклонения от ее математического ожидания:
Найдем дисперсию случайной величины Х (числа стандартных деталей среди отобранных) в примере 1 данной лекции. Вычислим значения квадрата отклонения каждого возможно-го значения от математического ожидания:
(1 – 2,4) 2 = 1,96; (2 – 2,4) 2 = 0,16; (3 – 2,4) 2 = 0,36. Следовательно,
Замечание 1. В определении дисперсии оценивается не само отклонение от среднего, а его квадрат. Это сделано для того, чтобы отклонения разных знаков не компенсировали друг друга.
Замечание 2. Из определения дисперсии следует, что эта величина принимает только неотрицательные значения.
Замечание 3. Существует более удобная для расчетов формула для вычисления дисперсии, справедливость которой доказывается в следующей теореме:
Используя то, что М(Х) – постоянная величина, и свойства математического ожидания, преобразуем формулу (7.6) к виду:
Пример. Вычислим дисперсии случайных величин Х и Y, рассмотренных в начале этого раздела. М(Х) = (49 2 ?0,1 + 50 2 ?0,8 + 51 2 ?0,1) – 50 2 = 2500,2 – 2500 = 0,2.
М(Y) = (0 2 ?0,5 + 100²?0,5) – 50² = 5000 – 2500 = 2500. Итак, дисперсия второй случайной величины в несколько тысяч раз больше дисперсии первой. Таким образом, даже не зная законов распределения этих величин, по известным значениям дисперсии мы можем утверждать, что Х мало отклоняется от своего математического ожидания, в то время как для Y это отклонение весьма существенно.
1) Дисперсия постоянной величины С равна нулю:
2) Постоянный множитель можно выносить за знак дисперсии, возведя его в квадрат:
3) Дисперсия суммы двух независимых случайных величин равна сумме их дисперсий:
Следствие 1. Дисперсия суммы нескольких взаимно независимых случайных величин равна сумме их дисперсий.
Следствие 2. Дисперсия суммы постоянной и случайной величин равна дисперсии случайной величины.
4) Дисперсия разности двух независимых случайных величин равна сумме их дисперсий:
Дисперсия дает среднее значение квадрата отклонения случайной величины от среднего; для оценки самого отклонения служит величина, называемая средним квадратическим отклонением.
Определение 7.6. Средним квадратическим отклонением σ случайной величины Х называется квадратный корень из дисперсии:
Пример. В предыдущем примере средние квадратические отклонения Х и Y равны соответственно
[expert_bq id=»1570″]Является наиболее используемой мерой рассеяния в статистике, вычисляемая путем суммирования, возведенного в квадрат, отклонения каждого значения данных от средней величины. Если же вы хотите что-то уточнить, обращайтесь ко мне![/expert_bq] Дисперсия — это мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Является наиболее используемой мерой рассеяния в статистике, вычисляемая путем суммирования, возведенного в квадрат, отклонения каждого значения данных от средней величины. Формула для вычисления дисперсии представлена ниже:Как сделать дисперсию в excel?
4. Заполните столбец абсолютных частот. Выделите ячейки D2:D10. Вызовите Мастер функций (кнопка fx), категорию Статистические и функцию ЧАСТОТА, нажмите кнопку ОК. Появится диалоговое окно ЧАСТОТА.
Как найти дисперсию в excel
Среди множества показателей, которые применяются в статистике, нужно выделить расчет дисперсии. Следует отметить, что выполнение вручную данного вычисления – довольно утомительное занятие. К счастью, в приложении Excel имеются функции, позволяющие автоматизировать процедуру расчета. Выясним алгоритм работы с этими инструментами.
Вычисление дисперсии
Дисперсия – это показатель вариации, который представляет собой средний квадрат отклонений от математического ожидания. Таким образом, он выражает разброс чисел относительно среднего значения. Вычисление дисперсии может проводиться как по генеральной совокупности, так и по выборочной.
Способ 1: расчет по генеральной совокупности
Для расчета данного показателя в Excel по генеральной совокупности применяется функция ДИСП.Г. Синтаксис этого выражения имеет следующий вид:
Всего может быть применено от 1 до 255 аргументов. В качестве аргументов могут выступать, как числовые значения, так и ссылки на ячейки, в которых они содержатся.
Посмотрим, как вычислить это значение для диапазона с числовыми данными.
Запускается Мастер функций. В категории «Статистические» или «Полный алфавитный перечень» выполняем поиск аргумента с наименованием «ДИСП.Г». После того, как нашли, выделяем его и щелкаем по кнопке «OK».
Выполняется запуск окна аргументов функции ДИСП.Г. Устанавливаем курсор в поле «Число1». Выделяем на листе диапазон ячеек, в котором содержится числовой ряд. Если таких диапазонов несколько, то можно также использовать для занесения их координат в окно аргументов поля «Число2», «Число3» и т.д. После того, как все данные внесены, жмем на кнопку «OK».
Способ 2: расчет по выборке
В отличие от вычисления значения по генеральной совокупности, в расчете по выборке в знаменателе указывается не общее количество чисел, а на одно меньше. Это делается в целях коррекции погрешности. Эксель учитывает данный нюанс в специальной функции, которая предназначена для данного вида вычисления – ДИСП.В. Её синтаксис представлен следующей формулой:
Количество аргументов, как и в предыдущей функции, тоже может колебаться от 1 до 255.
В категории «Полный алфавитный перечень» или «Статистические» ищем наименование «ДИСП.В». После того, как формула найдена, выделяем её и делаем клик по кнопке «OK».
Производится запуск окна аргументов функции. Далее поступаем полностью аналогичным образом, как и при использовании предыдущего оператора: устанавливаем курсор в поле аргумента «Число1» и выделяем область, содержащую числовой ряд, на листе. Затем щелкаем по кнопке «OK».
Отблагодарите автора, поделитесь статьей в социальных сетях.
Блог о программе Microsoft Excel: приемы, хитрости, секреты, трюки
Дисперсия — это мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Является наиболее используемой мерой рассеяния в статистике, вычисляемая путем суммирования, возведенного в квадрат, отклонения каждого значения данных от средней величины. Формула для вычисления дисперсии представлена ниже:
n — размер выборки (количество значений данных),
(xi – xср) — отклонение от средней величины для каждого значения набора данных.
Для лучшего понимания формулы, разберем пример. Я не очень люблю готовку, поэтому занятием этим занимаюсь крайне редко. Тем не менее, чтобы не умереть с голоду, время от времени мне приходится подходить к плите для реализации замысла по насыщению моего организма белками, жирами и углеводами. Набор данных, редставленный ниже, показывает, сколько раз Ренат готовит пищу каждый месяц:
Первым шагом при вычислении дисперсии является определение среднего значения выборки, которое в нашем примере равняется 7,8 раза в месяц. Остальные вычисления можно облегчить с помощью следующей таблицы.
Для тех, кто любит производить все вычисления за один раз, уравнение будет выглядеть следующим образом:
Использование метода «сырого счета» (пример с готовкой)
Существует более эффективный способ вычисления дисперсии, известный как метод «сырого счета». Хотя с первого взгляда уравнение может показаться весьма громоздким, на самом деле оно не такое уж страшное. Можете в этом удостовериться, а потом и решите, какой метод вам больше нравится.
— сумма каждого значения данных после возведения в квадрат,
— квадрат суммы всех значений данных.
Не теряйте рассудок прямо сейчас. Позвольте представить все это в виде таблицы, и тогда вы увидите, что вычислений здесь меньше, чем в предыдущем примере.
Как видите, результат получился тот же, что и при использовании предыдущего метода. Достоинства данного метода становятся очевидными по мере роста размера выборки (n).
Расчет дисперсии в Excel
Как вы уже, наверное, догадались, в Excel присутствует формула, позволяющая рассчитать дисперсию. Причем, начиная с Excel 2010 можно найти 4 разновидности формулы дисперсии:
1) ДИСП.В – Возвращает дисперсию по выборке. Логические значения и текст игнорируются.
2) ДИСП.Г — Возвращает дисперсию по генеральной совокупности. Логические значения и текст игнорируются.
3) ДИСПА — Возвращает дисперсию по выборке с учетом логических и текстовых значений.
4) ДИСПРА — Возвращает дисперсию по генеральной совокупности с учетом логических и текстовых значений.
Разница в формуле расчета дисперсии между выборкой и совокупностью заключается в знаменателе. Где для выборки он будет равняться (n-1), а для генеральной совокупности только n.
Итак, если у вас есть массив данных, рассчитать его дисперсию ни составит никакого труда, воспользовавшись одной из перечисленных выше функций Excel.
Вычислим в MS EXCEL дисперсию и стандартное отклонение выборки. Также вычислим дисперсию случайной величины, если известно ее распределение.
Сначала рассмотрим дисперсию, затем стандартное отклонение.
Дисперсия выборки
Дисперсия выборки (выборочная дисперсия, sample variance) характеризует разброс значений в массиве относительно среднего.
Из первой формулы видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего, деленная на размер выборки минус 1.
Дисперсию выборки можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера )
=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)
=(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула
=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1 ) – формула массива
Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению. Обычно, чем больше величина дисперсии, тем больше разброс значений в массиве.
Дисперсия выборки является точечной оценкой дисперсии распределения случайной величины, из которой была сделана выборка. О построении доверительных интервалов при оценке дисперсии можно прочитать в статье Доверительный интервал для оценки дисперсии в MS EXCEL.
Дисперсия случайной величины
Чтобы вычислить дисперсию случайной величины, необходимо знать ее функцию распределения.
Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна математическому ожиданию квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]
Если случайная величина имеет дискретное распределение, то дисперсия вычисляется по формуле:
где xi – значение, которое может принимать случайная величина, а μ – среднее значение (математическое ожидание случайной величины), р(x) – вероятность, что случайная величина примет значение х.
Если случайная величина имеет непрерывное распределение, то дисперсия вычисляется по формуле:
Для распределений, представленных в MS EXCEL, дисперсию можно вычислить аналитически, как функцию от параметров распределения. Например, для Биномиального распределения дисперсия равна произведению его параметров: n*p*q.
Примечание: Дисперсия, является вторым центральным моментом, обозначается D[X], VAR(х), V(x). Второй центральный момент — числовая характеристика распределения случайной величины, которая является мерой разброса случайной величины относительно математического ожидания.
Примечание: О распределениях в MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL.
Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии – стандартное отклонение.
Var(Х)=E[(X-E(X)) 2 ]=E[X 2 -2*X*E(X)+(E(X)) 2 ]=E(X 2 )-E(2*X*E(X))+(E(X)) 2 =E(X 2 )-2*E(X)*E(X)+(E(X)) 2 =E(X 2 )-(E(X)) 2
Это свойство дисперсии используется в статье про линейную регрессию .
Var(Х+Y)=Var(Х) + Var(Y) + 2*Cov(Х;Y), где Х и Y — случайные величины, Cov(Х;Y) — ковариация этих случайных величин.
Если случайные величины независимы (independent), то их ковариация равна 0, и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это свойство дисперсии используется при выводе стандартной ошибки среднего.
Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения доверительного интервала для разницы 2х средних.
Стандартное отклонение выборки
Стандартное отклонение выборки — это мера того, насколько широко разбросаны значения в выборке относительно их среднего.
По определению, стандартное отклонение равно квадратному корню из дисперсии:
Стандартное отклонение не учитывает величину значений в выборке, а только степень рассеивания значений вокруг их среднего. Чтобы проиллюстрировать это приведем пример.
В MS EXCEL 2007 и более ранних версиях для вычисления Стандартного отклонения выборки используется функция =СТАНДОТКЛОН() , англ. название STDEV, т.е. STandard DEViation. С версии MS EXCEL 2010 рекомендуется использовать ее аналог =СТАНДОТКЛОН.В() , англ. название STDEV.S, т.е. Sample STandard DEViation.
Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера )
=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1))
=КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))
Другие меры разброса
Функция КВАДРОТКЛ() вычисляет с умму квадратов отклонений значений от их среднего. Эта функция вернет тот же результат, что и формула =ДИСП.Г( Выборка )*СЧЁТ( Выборка ) , где Выборка — ссылка на диапазон, содержащий массив значений выборки (именованный диапазон). Вычисления в функции КВАДРОТКЛ() производятся по формуле:
Функция СРОТКЛ() является также мерой разброса множества данных. Функция СРОТКЛ() вычисляет среднее абсолютных значений отклонений значений от среднего. Эта функция вернет тот же результат, что и формула =СУММПРОИЗВ(ABS(Выборка-СРЗНАЧ(Выборка)))/СЧЁТ(Выборка) , где Выборка — ссылка на диапазон, содержащий массив значений выборки.
[expert_bq id=»1570″]Такая зависимость обычно определяется некоторой математической моделью уравнением регрессии , содержащей несколько неизвестных параметров. Если же вы хотите что-то уточнить, обращайтесь ко мне![/expert_bq] где x, y – значения признаков X и Y; nxy – частота пары значений (x,y); n – объем выборки; sx, sy – выборочные средние квадратические отклонения; — выборочные средние.Как найти дисперсию в excel
Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения доверительного интервала для разницы 2х средних.
Тема: Решение задач математической статистики в Excel.
— получение навыков работы по созданию и редактированию таблиц;
— использовать мастер функций для решения математических и статистических задач;
— математические методы обработки результатов наблюдений (корреляционный и регрессионный анализ, дисперсионный анализ);
3. Материалы для самоподготовки к освоению данной темы.
3) Составление выборочного уравнения линейной регрессии с помощью метода наименьших квадратов.
4) Возможности мастера функций пакета Excel и приемы работы с электронной таблицей.
6. Оснащение: компьютер с установленным пакетом MS Office.
6. Составление выборочного уравнения линейной регрессии.
7.2. Решение задач математической статистики в Excel.
Раздел математики, посвященный методам сбора, анализа и обработки статистических данных, называется математической статистикой.
Совокупность всех единиц наблюдения, охватываемых таким сплошным наблюдением, называется генеральной совокупностью.
Множество объектов, случайно выбранных для исследования из всей генеральной совокупности, называется выборкой. Число объектов выборки называют ее объемом.
Пусть из генеральной совокупности извлечена выборка, причем x1 наблюдалось n1 раз, x2 – n2 раз, xk – nk раз и Sni=n – объем выборки. Наблюдаемые значения xi называют вариантами, а последовательность вариант, записанных в возрастающем порядке, — вариационным рядом. Числа наблюдений называют частотами, а их отношения к объему выборки ni/n – относительными частотами.
Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.
Над случайной величиной X проводится ряд независимых опытов и составляется статистическое распределение выборки количественного признака X. Чтобы получить представление о распределении случайной величины X, строят эмпирическую функцию распределения.
Эмпирической (выборочной) функцией распределения называют функцию F * (x), определяющую для каждого значения x относительную частоту события X
Полигоном частот называют ломаную, отрезки которой соединяют точки (x1;n1), (x2;n2),…,(xk;nk).Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат – соответствующие им частоты ni. Точки (xi;ni) соединяют отрезками прямых и получают полигон частот. Если откладывать на оси ординат относительные частоты, то получим полигон относительных частот.
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною Dx, а высоты равны отношению ni/Dx (плотность частоты). Если высоты равны отношению относительной частоты на длину частичного интервала Dx, то гистограмму называют гистограммой относительных частот.
При увеличении до бесконечности размера выборки выборочные функции распределения превращаются в теоретические: гистограмма превращается в график плотности распределения, а кривая – в график функции распределения.
В Excel для построения эмпирических функций распределения используется специальная функция ЧАСТОТА и процедура пакета анализа Гистограмма.
Функция ЧАСТОТА вычисляет частоты появления случайной величины в интервалах значений и выводит их как массив цифр.
Процедура Гистограмма используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. Процедура выводит результаты в виде таблицы и гистограммы.
Пример. Построить эмпирическое распределение следующей выборки: 24, 27, 23, 22, 25, 24, 27, 21, 20, 29, 23, 21, 26, 25,23, 22, 25, 26,23, 29.
1. В ячейку А1 введите слово Наблюдения, а в диапазон А2:В11 – значения выборки.
2. Выберите ширину интервала 1. Тогда при крайних значениях 20 и 29 получится 9 интервалов. В ячейки С1 введите букву Х. В диапазон С2:С10 введите граничные значения интервалов (20, 21, 22, 23, 24, 25, 26, 27, 29).
3. Введите заголовки: в ячейку D1 – Абсолютные частоты, в ячейку E1 – Относительные частоты, в ячейку F1 – Накопленные частоты.
4. Заполните столбец абсолютных частот. Выделите ячейки D2:D10. Вызовите Мастер функций (кнопка fx), категорию Статистические и функцию ЧАСТОТА, нажмите кнопку ОК. Появится диалоговое окно ЧАСТОТА.
Указателем мыши введите диапазон данных (А2:В11) в рабочее поле Массив данных. В рабочее поле Двоичный массив введите диапазон интервалов (С2:С10).
После этого нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце D2:D10 появится массив абсолютных частот.
5. Найдите объем выборки в ячейке D11. Для этого нажмите кнопку Автосумма, затем выберите диапазон суммирования ( D2:D10 ) и нажмите клавишу Enter.
6. Заполните столбец относительных частот. Введите формулу в ячейку E2 для вычисления относительной частоты: =D2/D$11. Нажмите клавишу Enter. Протягиванием скопируйте формулу в диапазон E3:E10. Получим относительные частоты.
7. Заполните столбец накопленных частот. Относительную частоту, указанную в ячейке E2, наберите в ячейке F2. Введите формулу в ячейку F3 := F2+E3. Нажмите клавишу Enter. Протягиванием скопируйте формулу в диапазон: F4:F10. Получим накопленные частоты.
8. Результаты вычислений относительных частот и накопленных частот приводятся на рисунке.
A | B | C | D | E | F |
Наблюдения | Х | Абсолютные частоты | Относительные частоты | Накопленные частоты | |
0,05 | 0,05 | ||||
0,1 | 0,15 | ||||
0,1 | 0,25 | ||||
0,2 | 0,45 | ||||
0,1 | 0,55 | ||||
0,15 | 0,7 | ||||
0,1 | 0,8 | ||||
0,1 | 0,9 | ||||
0,1 |
Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между некоторыми наблюдаемыми переменными. Знание взаимозависимостей дает возможность предвидеть развитие ситуации при изменении характеристик объекта исследования.
Выборочный коэффициент линейной корреляции между двумя случайными величинами X и Y рассчитывается по формуле
где x, y – значения признаков X и Y; nxy – частота пары значений (x,y); n – объем выборки; sx, sy – выборочные средние квадратические отклонения; — выборочные средние.
После вычисления выборочного коэффициента корреляции проверим гипотезу о наличии существенности линейной корреляционной зависимости между изучаемыми величинами в генеральной совокупности, или, гипотезу о значимости выборочного коэффициента корреляции. Для этого вычисляем экспериментальное значение критерия:
По таблице критических значений распределения Стьюдента при заданном уровне значимости a и числе степеней свободы f=n-2 находят критическое значение tкр..
Если , то делают вывод о значимости выборочного коэффициента корреляции при приинятом уровне значимости.
В пакете Excel для вычисления коэффициента линейной корреляции используется специальная функция КОРРЕЛ. Параметрами функции являются КОРРЕЛ (массив 1; массив 2), где массив 1 – это диапазон ячеек первой случайной величины; массив 2 – это второй интервал ячеек со значениями второй случайной величины.
Пример. Изучали зависимость между систолическим давлением (мм рт. ст.) у мужчин в начальной стадии шока и возрастом X (годы).
Необходимо определить имеется ли взаимосвязь между систолическим давлением и возрастом.
Появится диалоговое окно КОРРЕЛ. Указателем мыши введите диапазон данных “Возраст” в поле массив 1 (А2:А12). Диапазон данных “Систолическое давление” введите в поле массив 2 (В2:В12).
В ячейке А13 после нажатия кнопки ОК появится значение коэффициента корреляции – 0,61. Если проверить значимость коэффициента корреляции между переменными X и при уровне значимости a=0,05 (при n=20 tкр.=2,1), то можно сделать вывод, что имеется заметная линейная корреляционная связь между и X.
Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров.
M(Y)x – условное математическое ожидание величины Y, соответствующее значению x;
M(X)y – условное математическое ожидание величины X, соответствующее значению y.
В результате n независимых опытов получены n пар чисел (x1, y1), (x2, y2), … , (xn, yn).
Найдем по данным наблюдений выборочное уравнение прямой линии регрессии.
Выборочное уравнение линейной регрессии Y на X будем искать в виде
Угловой коэффициент прямой линии регрессии Y на X называют выборочным коэффициентом регрессии Y на X.
Подберем параметры ryx и b так, чтобы сумма квадратов отклонений ординат всех эмпирических точек от ординат соответствующих точек прямой (*) должна быть минимальной (в этом состоит сущность метода наименьших квадратов).
В результате применения метода наименьших квадратов получим следующие формулы для вычисления ryx и b:
Линейный регрессионный анализ заключается в подборе графика и его уравнения для набора наблюдений.
Для получения коэффициентов уравнения регрессии используется процедура Регрессия из пакета анализа. Кроме того, могут быть использованы функция ЛИНЕЙН для получения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ для получения предсказанных значений Y в требуемых точках.
— в появившемся диалоговом окне Анализ данных в списке Инструменты анализа выбрать строку Регрессия;
— в появившемся диалоговом окне задать Входной интервал Y. Для этого необходимо, нажав левую кнопку мыши, протянуть указатель мыши от верхней ячейки столбца зависимых данных к нижней ячейке, затем отпустить левую кнопку мыши;
— указать Входной интервал X. Для этого необходимо, нажав левую кнопку мыши, протянуть указатель мыши от верхней ячейки столбца независимых данных к нижней ячейке, затем отпустить левую кнопку мыши;
— указать выходной диапазон. Для этого следует навести указатель мыши в положение Выходной интервал и щелкнуть левой кнопкой, навести указатель мыши на правое поле ввода Выходной интервал и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верхнюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши. Размер выходного диапазона будет определен автоматически;
— если необходимо проверить отличие экспериментальных точек от предсказанных по регрессионной модели, следует установить флажок в поле График подбора;
Результаты анализа. Выходной диапазон будет включать в себя результаты дисперсионного анализа, коэффициенты регрессии, стандартную погрешность вычисления Y, среднеквадратичные отклонения, число наблюдений, стандартные погрешности для коэффициентов.
Приводимое значение R – квадрат (коэффициент детерминации) в регрессионной статистике определяет, с какой степенью точности полученное регрессионное уравнение аппроксимирует исходные данные. Если R – квадрат > 0,95, говорят о высокой точности аппроксимации. Если R – квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации. Если R – квадрат < 0,6, то точность аппроксимации недостаточна и модель требует улучшения.
В таблице Дисперсионный анализ оценивается общее качество полученной модели: ее достоверность по уровню значимости критерия Фишера – p, который должен быть меньше, чем 0,05. Значение p определяем в строке Регрессия, в столбце Значимость F.
Пример. Изучали зависимость между объемом Y (мкм 3 ) и диаметром X (мкм) сухого эритроцита у млекопитающих. Результаты наблюдений приведены в таблице:
Необходимо на основании этих данных построить регрессионное уравнение.
1. В пункте меню Сервис выберите строку Анализ данных
2. В появившемся диалоговом окне задайте Входной интервал Y.
5. Укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал, затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите на левую верхнюю ячейку выходного диапазона (C1). Щелкните левой кнопкой мыши. Нажмите кнопку ОК.
Результаты анализа. В выходном диапазоне появятся следующие результаты и график подбора.
В таблице Дисперсионный анализ оценивается общее качество полученной модели: ее достоверность по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере 0,0000911, то есть p=0,0000911 и модель значима).
Приводимое значение R – квадрат (коэффициент детерминации) в регрессионной статистике определяет степень точности описания моделью процесса. В примере R – квадрат=0,9015. Так как R – квадрат < 0,95, не можем говорить о высокой точности аппроксимации.
Определим значения коэффициентов модели. На пересечении строки Y – пересечение и столбца Коэффициент приводится свободный член. В строке Переменная X1 приводится коэффициент при X1.
Поэтому выражение для определения объема сухого эритроцита у млекопитающих от диаметра будет иметь вид:
Основная идея дисперсионного анализа состоит в сравнении факторной дисперсии и остаточной дисперсии. В математической статистике доказывается, что факторная дисперсия характеризует влияние фактора А на величину Х, а остаточная – влияние случайных причин.
Рассмотрим случай, когда число испытаний на различных уровнях различно. Пусть произведено q1 испытаний на уровне А1, q2 испытаний на уровне А2, …, q m испытаний – на уровне Аm.
Общую сумму квадратов отклонений наблюдаемых зачений от общей средней х находят по формуле :
P1 = — сумма квадратов наблюдавшихся значений признака на уровне А1;
P2 = — сумма квадратов наблюдавшихся значений признака на уровне А2;
Pm = — сумма квадратов наблюдавшихся значений признака на уровне А m.
R1 = , R2 = … Rm = — суммы наблюдавшихся значений признака соответственно на уровнях А1, А2, … Аm .
n= q1 + q2 +… +qm — общее число испытаний ( объем выборки).
Факторную сумму квадратов отклонений групповых средних от общей средней, которая характеризует рассеяние » между группами» находят по формуле:
Остаточную сумму квадратов отклонений наблюдаемых значений группы от своей групповой средней, которая характеризует рассеяние «внутри групп», находят по формуле :
Факторную дисперсию находят по формуле :
Если факторная дисперсия окажется меньше остаточной, то фактор не оказывает существенное влияние на величину Х.
Если факторная дисперсия больше остаточной, то применяем критерий Фишера — Снедекора, для чего найдем наблюдаемое значение критерия
По таблице “Критические точки распределения F Фишера — Снедекора” находим критическую точку Fкр ( ά; m-1; n-m), ά – уровень значимости . Если F набл > Fкр, то гипотезу о равенстве групповых средних отвергаем, значит фактор А оказывает существенное влияние на величину Х.
Для проведения в MS Excel дисперсионного анализа необходимо:
— ввести данные в таблицу. В каждом столбце должны быть данные, соответствующие одному значению исследуемого фактора. Столбцы должны располагаться в порядке возрастания (убывания) величины исследуемого фактора;
— выбрать команду Сервис, затем Анализ данных в списке Инструменты анализа выбрать процедуру Однофакторный дисперсионный анализ;
— в появившемся диалоговом окне задать Входной интервал, то есть таблицу данных;
— в разделе Группировка переключатель установить в положение по столбцам;
— указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа.
Определить достоверность влияния фермента (фактора А) на выход продукта биохимического синтеза при уровне значимости a£0,05.
Таблица вариантов Номер варианта выбирается по последним двум цифрам шифра.
Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций.
Папиллярные узоры пальцев рук — маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни.
Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого.
© cyberpedia.su 2017-2022 — Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!
Как посчитать размах в excel
Приводимое значение R – квадрат (коэффициент детерминации) в регрессионной статистике определяет, с какой степенью точности полученное регрессионное уравнение аппроксимирует исходные данные. Если R – квадрат > 0,95, говорят о высокой точности аппроксимации. Если R – квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации. Если R – квадрат < 0,6, то точность аппроксимации недостаточна и модель требует улучшения.
A | B | C | D | E | F |
Наблюдения | Х | Абсолютные частоты | Относительные частоты | Накопленные частоты | |
0,05 | 0,05 | ||||
0,1 | 0,15 | ||||
0,1 | 0,25 | ||||
0,2 | 0,45 | ||||
0,1 | 0,55 | ||||
0,15 | 0,7 | ||||
0,1 | 0,8 | ||||
0,1 | 0,9 | ||||
0,1 |