Содержание

Эмпирические функции распределения и их сравнение

Эмпирическая CDF является непараметрической оценкой неизвестной генеральной функции распределения случайной величины. При ее построении выборку \(X\) предварительно сортируют по возрастанию наблюдаемых величин, каждому исходному элементу присваивают значения вероятности 1/n, и далее на каждом шаге с использованием интерполяции вычисляют сумму этих вероятностей:

Согласно теореме Гливенко-Кантелли, \(\hat_n (x)\) является состоятельной оценкой \(F_n (x)\) и равномерно сходится к ней при \( n \to \infty \).

если совокупный размер исходных выборок достаточно велик, то CDF является аппроксимацией «истинной» функции распределения, что может быть полезным для проверки статистических гипотез;
график эмпирической CDF можно визуально сравнить с аналогичными кривыми для часто используемых теоретических распределений и проверить, не распределена ли случайная величина по известному закону;
CDF может графически отобразить насколько «быстро» (с оценкой коэффициента угла наклона отрезков прямых на графике) вероятности увеличиваются от 0 до 1;
выделение основных квантилей, таких, например, как , позволяет лучше понять характер вариации данных.

Формирование, отображение и сглаживание эмпирических функций распределения

Более осторожный подход связан с предварительной аппроксимацией PDF некоторой подходящей функцией, по которой затем строится сглаженная эмпирическая кумулятивная функция. Рассмотрим два метода, первый из которых связан с построением CDF на основе гистограммы.

Разделим интервал варьирования наблюдаемой величины на шесть классов токсичности по уровню концентрации эндосульфана и построим кусочно-линейную функцию кумулятивного распределения вероятностей, состоящую из небольшого числа участков.

Представленный метод эффективен для выявления закономерностей распределения в больших зашумленных массивах данных (n > 500). Другой метод основан на использовании PDF, которая аппроксимируется ядерной функцией. Переход от непрерывных значений плотности распределения к непрерывной форме ЕCDF удобно осуществить с помощью функций geom_density() и stat_ecdf() из пакета ggplot2 :

Естественно, что форма кривой ядерной функции плотности (а следовательно и кумулятивной кривой CDF) будет зависеть от величины параметра сглаживания adjust , регулирующего точность аппроксимации.

Методически более осмысленной процедурой является подгонка эмпирического распределения одним из известных теоретических распределений (Delignette-Muller 2015). Используем для этого функции из пакетов fitdistrplus и actuar :

Статистика Колмогорова-Смирнова D равна максимуму различий между эмпирической и теоретической кумулятивными кривыми распределений:

где \(\sup \) — супремум множества расстояний. По теореме Гливенко-Кантелли, если выборка получена из распределения \(\boldsymbol(x)\), то \(D_n\) сходится к 0.

Сравнение CDF некскольких выборок

Для упомянутых выше трех групп водной фауны построим распределения плотности вероятности PDF. Синими пунктирными линиями покажем положения квартильных значений среднелетальных концентраций эндосульфана.

Здесь и на последующих рисунках розовым цветом обозначены членистоногие ( Art ), зеленым — рыбы ( Fis ) и голубым — беспозвоночные ( Non ).

Построим теперь кривые чувствительности видов (т.е. графики CDF). Найдем и отметим на полученном графике положения максимальных расстояний между кривыми, соответствующими разным группам животных:

Тест Колмогорова-Смирнова также может быть использован для проверки различий пар эмпирических CDF \(\hat_\) и \(\hat_\), представленных на рисуке:

Нулевая гипотеза, утверждающая, что обе выборки взяты из одного и того же распределения, отклоняется на уровне \(\alpha\), если

Выполним попарное сравнение групп гидробионтов и проверим три нулевых гипотезы об эквивалентности CDF ( alternative = «two.sided» ). Отметим, что функции для членистоногих и рыб пересекаются, и поэтому необходимо еще проверить гипотезу о том, какая из кривых располагается выше другой ( «less» или «greater» ):

которые будут находиться на одинаковом удалении от каждой точки ECDF по оси ординат.

Более точно значение \(\epsilon\) можно оценить с помощью аппроксимации статистики Колмогорова-Смирнова (КС) вышеприведенной функцией approx.ksD() . Заинтересованные читатели могут воспользоваться также функцией ecdf.ksCI() из пакета sfsmisc , в которой заложен именно этот алгоритм.

Здесь сплошными линиями показаны эмпирические CDF для каждой группы организмов с 95% доверительной областью ДКВ, залитой соответствующим цветом. Штрих-пунктирными линиями отмечены границы, полученные с помощью аппроксимации КС, а штриховыми линиями — полученные с применением ЦПТ.

Для каждой бутстреп-выборки формируется кумулятивная функция распределения, а доверительная полоса в каждом ее вертикальном сечении включает «пучок» из 95% таких кривых, максимально приближенных к медиане. Ограничимся 200 репликами и выполним расчеты только для группы членистоногих:

Благодарности

Выражаю искреннюю признательность своему многолетнему знакомому, математику-статистику Н. А. Цейтлину (г. Гамбург), за плодотворное обсуждение и ценные замечания.

[expert_bq id=»1570″]Таким образом у нас получилась таблица с данными, с помощью которой мы сможем построить диаграмму с нормальным распределением. Если же вы хотите что-то уточнить, обращайтесь ко мне![/expert_bq] Итак, чтобы сгенерировать массив данных с нормальным распределением, нам понадобится функция НОРМ.ОБР() – это обратная функция от НОРМ.РАСП(), которая возвращает нормально распределенную переменную для заданной вероятности для определенного среднего значения и стандартного отклонения. Синтаксис формулы выглядит следующим образом:

Эмпирическая ⚠️ функция распределения: как найти и построить график

если совокупный размер исходных выборок достаточно велик, то CDF является аппроксимацией «истинной» функции распределения, что может быть полезным для проверки статистических гипотез;
график эмпирической CDF можно визуально сравнить с аналогичными кривыми для часто используемых теоретических распределений и проверить, не распределена ли случайная величина по известному закону;
CDF может графически отобразить насколько «быстро» (с оценкой коэффициента угла наклона отрезков прямых на графике) вероятности увеличиваются от 0 до 1;
выделение основных квантилей, таких, например, как , позволяет лучше понять характер вариации данных.

Определение. Точечной оценкой называют статистическую оценку, которая определяется одним числом Q * = f(x₁, x₂, …, x_n), где x₁, x₂, …, x_n ─ результаты n наблюдений над количественным признаком Х (выборка).

Дополнительные данные → Похожие темы → Все про Exel → Как вставить значения → Как объединить ячейки → Как вставить форматы → Дополнительные данные → Вставить формулы→ Аргументы функции