Как Построить График Эмпирической Функции в Excel • Примеры задач

Эмпирические функции распределения и их сравнение

Эмпирическая CDF является непараметрической оценкой неизвестной генеральной функции распределения случайной величины. При ее построении выборку \(X\) предварительно сортируют по возрастанию наблюдаемых величин, каждому исходному элементу присваивают значения вероятности 1/n, и далее на каждом шаге с использованием интерполяции вычисляют сумму этих вероятностей:

Согласно теореме Гливенко-Кантелли, \(\hat_n (x)\) является состоятельной оценкой \(F_n (x)\) и равномерно сходится к ней при \( n \to \infty \).

  • если совокупный размер исходных выборок достаточно велик, то CDF является аппроксимацией «истинной» функции распределения, что может быть полезным для проверки статистических гипотез;
  • график эмпирической CDF можно визуально сравнить с аналогичными кривыми для часто используемых теоретических распределений и проверить, не распределена ли случайная величина по известному закону;
  • CDF может графически отобразить насколько «быстро» (с оценкой коэффициента угла наклона отрезков прямых на графике) вероятности увеличиваются от 0 до 1;
  • выделение основных квантилей, таких, например, как , позволяет лучше понять характер вариации данных.

Формирование, отображение и сглаживание эмпирических функций распределения

Как Построить График Эмпирической Функции в Excel • Примеры задач

Более осторожный подход связан с предварительной аппроксимацией PDF некоторой подходящей функцией, по которой затем строится сглаженная эмпирическая кумулятивная функция. Рассмотрим два метода, первый из которых связан с построением CDF на основе гистограммы.

Разделим интервал варьирования наблюдаемой величины на шесть классов токсичности по уровню концентрации эндосульфана и построим кусочно-линейную функцию кумулятивного распределения вероятностей, состоящую из небольшого числа участков.

Как Построить График Эмпирической Функции в Excel • Примеры задач

Представленный метод эффективен для выявления закономерностей распределения в больших зашумленных массивах данных (n > 500). Другой метод основан на использовании PDF, которая аппроксимируется ядерной функцией. Переход от непрерывных значений плотности распределения к непрерывной форме ЕCDF удобно осуществить с помощью функций geom_density() и stat_ecdf() из пакета ggplot2 :

Как Построить График Эмпирической Функции в Excel • Примеры задач

Естественно, что форма кривой ядерной функции плотности (а следовательно и кумулятивной кривой CDF) будет зависеть от величины параметра сглаживания adjust , регулирующего точность аппроксимации.

Методически более осмысленной процедурой является подгонка эмпирического распределения одним из известных теоретических распределений (Delignette-Muller 2015). Используем для этого функции из пакетов fitdistrplus и actuar :

Как Построить График Эмпирической Функции в Excel • Примеры задач

Статистика Колмогорова-Смирнова D равна максимуму различий между эмпирической и теоретической кумулятивными кривыми распределений:

где \(\sup \) — супремум множества расстояний. По теореме Гливенко-Кантелли, если выборка получена из распределения \(\boldsymbol(x)\), то \(D_n\) сходится к 0.

Сравнение CDF некскольких выборок

Для упомянутых выше трех групп водной фауны построим распределения плотности вероятности PDF. Синими пунктирными линиями покажем положения квартильных значений среднелетальных концентраций эндосульфана.

Как Построить График Эмпирической Функции в Excel • Примеры задач

Здесь и на последующих рисунках розовым цветом обозначены членистоногие ( Art ), зеленым — рыбы ( Fis ) и голубым — беспозвоночные ( Non ).

Построим теперь кривые чувствительности видов (т.е. графики CDF). Найдем и отметим на полученном графике положения максимальных расстояний между кривыми, соответствующими разным группам животных:

Как Построить График Эмпирической Функции в Excel • Примеры задач

Тест Колмогорова-Смирнова также может быть использован для проверки различий пар эмпирических CDF \(\hat_\) и \(\hat_\), представленных на рисуке:

Нулевая гипотеза, утверждающая, что обе выборки взяты из одного и того же распределения, отклоняется на уровне \(\alpha\), если

Выполним попарное сравнение групп гидробионтов и проверим три нулевых гипотезы об эквивалентности CDF ( alternative = «two.sided» ). Отметим, что функции для членистоногих и рыб пересекаются, и поэтому необходимо еще проверить гипотезу о том, какая из кривых располагается выше другой ( «less» или «greater» ):

которые будут находиться на одинаковом удалении от каждой точки ECDF по оси ординат.

Более точно значение \(\epsilon\) можно оценить с помощью аппроксимации статистики Колмогорова-Смирнова (КС) вышеприведенной функцией approx.ksD() . Заинтересованные читатели могут воспользоваться также функцией ecdf.ksCI() из пакета sfsmisc , в которой заложен именно этот алгоритм.

Как Построить График Эмпирической Функции в Excel • Примеры задач

Здесь сплошными линиями показаны эмпирические CDF для каждой группы организмов с 95% доверительной областью ДКВ, залитой соответствующим цветом. Штрих-пунктирными линиями отмечены границы, полученные с помощью аппроксимации КС, а штриховыми линиями — полученные с применением ЦПТ.

Для каждой бутстреп-выборки формируется кумулятивная функция распределения, а доверительная полоса в каждом ее вертикальном сечении включает «пучок» из 95% таких кривых, максимально приближенных к медиане. Ограничимся 200 репликами и выполним расчеты только для группы членистоногих:

Как Построить График Эмпирической Функции в Excel • Примеры задач

Благодарности

Выражаю искреннюю признательность своему многолетнему знакомому, математику-статистику Н. А. Цейтлину (г. Гамбург), за плодотворное обсуждение и ценные замечания.

[expert_bq id=»1570″]Таким образом у нас получилась таблица с данными, с помощью которой мы сможем построить диаграмму с нормальным распределением. Если же вы хотите что-то уточнить, обращайтесь ко мне![/expert_bq] Итак, чтобы сгенерировать массив данных с нормальным распределением, нам понадобится функция НОРМ.ОБР() – это обратная функция от НОРМ.РАСП(), которая возвращает нормально распределенную переменную для заданной вероятности для определенного среднего значения и стандартного отклонения. Синтаксис формулы выглядит следующим образом:
95-2-Нормальное распределение в Excel

Эмпирическая ⚠️ функция распределения: как найти и построить график

  • если совокупный размер исходных выборок достаточно велик, то CDF является аппроксимацией «истинной» функции распределения, что может быть полезным для проверки статистических гипотез;
  • график эмпирической CDF можно визуально сравнить с аналогичными кривыми для часто используемых теоретических распределений и проверить, не распределена ли случайная величина по известному закону;
  • CDF может графически отобразить насколько «быстро» (с оценкой коэффициента угла наклона отрезков прямых на графике) вероятности увеличиваются от 0 до 1;
  • выделение основных квантилей, таких, например, как , позволяет лучше понять характер вариации данных.

Определение. Точечной оценкой называют статистическую оценку, которая определяется одним числом Q * = f(x1, x2, …, xn), где x1, x2, …, xn ─ результаты n наблюдений над количественным признаком Х (выборка).

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: