Эмпирические функции распределения и их сравнение
Эмпирическая CDF является непараметрической оценкой неизвестной генеральной функции распределения случайной величины. При ее построении выборку \(X\) предварительно сортируют по возрастанию наблюдаемых величин, каждому исходному элементу присваивают значения вероятности 1/n, и далее на каждом шаге с использованием интерполяции вычисляют сумму этих вероятностей:
Согласно теореме Гливенко-Кантелли, \(\hat_n (x)\) является состоятельной оценкой \(F_n (x)\) и равномерно сходится к ней при \( n \to \infty \).
- если совокупный размер исходных выборок достаточно велик, то CDF является аппроксимацией «истинной» функции распределения, что может быть полезным для проверки статистических гипотез;
- график эмпирической CDF можно визуально сравнить с аналогичными кривыми для часто используемых теоретических распределений и проверить, не распределена ли случайная величина по известному закону;
- CDF может графически отобразить насколько «быстро» (с оценкой коэффициента угла наклона отрезков прямых на графике) вероятности увеличиваются от 0 до 1;
- выделение основных квантилей, таких, например, как , позволяет лучше понять характер вариации данных.
Формирование, отображение и сглаживание эмпирических функций распределения
Более осторожный подход связан с предварительной аппроксимацией PDF некоторой подходящей функцией, по которой затем строится сглаженная эмпирическая кумулятивная функция. Рассмотрим два метода, первый из которых связан с построением CDF на основе гистограммы.
Разделим интервал варьирования наблюдаемой величины на шесть классов токсичности по уровню концентрации эндосульфана и построим кусочно-линейную функцию кумулятивного распределения вероятностей, состоящую из небольшого числа участков.
Представленный метод эффективен для выявления закономерностей распределения в больших зашумленных массивах данных (n > 500). Другой метод основан на использовании PDF, которая аппроксимируется ядерной функцией. Переход от непрерывных значений плотности распределения к непрерывной форме ЕCDF удобно осуществить с помощью функций geom_density() и stat_ecdf() из пакета ggplot2 :
Естественно, что форма кривой ядерной функции плотности (а следовательно и кумулятивной кривой CDF) будет зависеть от величины параметра сглаживания adjust , регулирующего точность аппроксимации.
Методически более осмысленной процедурой является подгонка эмпирического распределения одним из известных теоретических распределений (Delignette-Muller 2015). Используем для этого функции из пакетов fitdistrplus и actuar :
Статистика Колмогорова-Смирнова D равна максимуму различий между эмпирической и теоретической кумулятивными кривыми распределений:
где \(\sup \) — супремум множества расстояний. По теореме Гливенко-Кантелли, если выборка получена из распределения \(\boldsymbol(x)\), то \(D_n\) сходится к 0.
Сравнение CDF некскольких выборок
Для упомянутых выше трех групп водной фауны построим распределения плотности вероятности PDF. Синими пунктирными линиями покажем положения квартильных значений среднелетальных концентраций эндосульфана.
Здесь и на последующих рисунках розовым цветом обозначены членистоногие ( Art ), зеленым — рыбы ( Fis ) и голубым — беспозвоночные ( Non ).
Построим теперь кривые чувствительности видов (т.е. графики CDF). Найдем и отметим на полученном графике положения максимальных расстояний между кривыми, соответствующими разным группам животных:
Тест Колмогорова-Смирнова также может быть использован для проверки различий пар эмпирических CDF \(\hat_\) и \(\hat_\), представленных на рисуке:
Нулевая гипотеза, утверждающая, что обе выборки взяты из одного и того же распределения, отклоняется на уровне \(\alpha\), если
Выполним попарное сравнение групп гидробионтов и проверим три нулевых гипотезы об эквивалентности CDF ( alternative = «two.sided» ). Отметим, что функции для членистоногих и рыб пересекаются, и поэтому необходимо еще проверить гипотезу о том, какая из кривых располагается выше другой ( «less» или «greater» ):
которые будут находиться на одинаковом удалении от каждой точки ECDF по оси ординат.
Более точно значение \(\epsilon\) можно оценить с помощью аппроксимации статистики Колмогорова-Смирнова (КС) вышеприведенной функцией approx.ksD() . Заинтересованные читатели могут воспользоваться также функцией ecdf.ksCI() из пакета sfsmisc , в которой заложен именно этот алгоритм.
Здесь сплошными линиями показаны эмпирические CDF для каждой группы организмов с 95% доверительной областью ДКВ, залитой соответствующим цветом. Штрих-пунктирными линиями отмечены границы, полученные с помощью аппроксимации КС, а штриховыми линиями — полученные с применением ЦПТ.
Для каждой бутстреп-выборки формируется кумулятивная функция распределения, а доверительная полоса в каждом ее вертикальном сечении включает «пучок» из 95% таких кривых, максимально приближенных к медиане. Ограничимся 200 репликами и выполним расчеты только для группы членистоногих:
Благодарности
Выражаю искреннюю признательность своему многолетнему знакомому, математику-статистику Н. А. Цейтлину (г. Гамбург), за плодотворное обсуждение и ценные замечания.
[expert_bq id=»1570″]Таким образом у нас получилась таблица с данными, с помощью которой мы сможем построить диаграмму с нормальным распределением. Если же вы хотите что-то уточнить, обращайтесь ко мне![/expert_bq] Итак, чтобы сгенерировать массив данных с нормальным распределением, нам понадобится функция НОРМ.ОБР() – это обратная функция от НОРМ.РАСП(), которая возвращает нормально распределенную переменную для заданной вероятности для определенного среднего значения и стандартного отклонения. Синтаксис формулы выглядит следующим образом:Эмпирическая ⚠️ функция распределения: как найти и построить график
- если совокупный размер исходных выборок достаточно велик, то CDF является аппроксимацией «истинной» функции распределения, что может быть полезным для проверки статистических гипотез;
- график эмпирической CDF можно визуально сравнить с аналогичными кривыми для часто используемых теоретических распределений и проверить, не распределена ли случайная величина по известному закону;
- CDF может графически отобразить насколько «быстро» (с оценкой коэффициента угла наклона отрезков прямых на графике) вероятности увеличиваются от 0 до 1;
- выделение основных квантилей, таких, например, как , позволяет лучше понять характер вариации данных.
Определение. Точечной оценкой называют статистическую оценку, которая определяется одним числом Q * = f(x1, x2, …, xn), где x1, x2, …, xn ─ результаты n наблюдений над количественным признаком Х (выборка).