Точечное и интервальное оценивание
Для исследования основных свойств явления или объекта, представленного выборкой, вычисляют точечные и интервальные оценки.
Точечные оценки параметров распределения — это некоторые числа, являющиеся приближенными значениями числовых характеристик показателя X, которые получены по выборочной совокупности. Основными точечными оценками являются:
объем выборки п — количество элементов в выборке;
выборочное среднее х — оценка математического ожидания, среднеарифметическое элементов выборки;
выборочная дисперсия S2 — среднее квадратов отклонения элементов выборки от выборочного среднего, является оценкой дисперсии, характеризует разброс выборочных значений;
стандартное отклонение S — корень из дисперсии;
медиана h — средний элемент вариационного ряда (вариационным рядом называется запись элементов выборки, когда они расположены в порядке возрастания или убывания элементов) или полусумма двух средних элементов, если объем выборки четный;
мода d — наиболее часто повторяющийся элемент. Мод может быть несколько или не быть совсем;
коэффициент эксцесса 6 — характеризует «островерхость» гистограммы или полигона по сравнению с кривой Гаусса нормального распределения. Эксцесс положителен, если полигон более острый по отношению к кривой Г аусса, и отрицательный, если более тупой;
коэффициент асимметрии у — характеризует степень симметричности гистограммы или полигона. Если полигон скривлен влево — асимметрия положительна, если полигон скривлен вправо — то отрицательна (рис. 3.2.1);

Рис. 3.2.1
перцентиль на уровне р — значение t, меньше которого р х 100 % элементов выборки.
ПРИМЕР 3.2.1. По выборке числа автомобилей, проданных автосалоном за 25 недель из примера 3.1.1, найти основные числовые характеристики выборки.
РЕШЕНИЕ. Запускаем программу EXCEL, первый лист. Вводим исходные данные в ячейки А1-А25. Находим числовые характеристики. Для ввода функций выделяем два столбца, например В и С, в первом вводим название характеристики, во втором — функцию. В ячейки В1—В11 вводим подписи числовых характеристик, то есть вписываем в эти ячейки первый столбец табл. 3.2.1, приведенной ниже. В С1 вводим текст «Функция» и ниже определяем функции, соответствующие названию (из второй колонки таблицы). Все функции вызываются нажатием на кнопку находятся в категории «Статистические» и в качестве массива данных (поле «ЧИСЛО 1») указывается ссылка на А1-А25. Например, для ввода первой из них ставим курсор в С2, нажимаем д|, выбираем категорию «Статистические» и функцию «Счет», в открывшемся окне ставим курсор в поле «Число 1» и обводим курсором ячейки А1-А25, нажимаем «ОК». Также поступаем и с другими функциями.
Таблица 3.2.1
Характеристика |
Функция |
Объем выборки |
СЧЁТ(массив данных) |
Выборочное среднее |
СРЗНАЧ(массив данных) |
Дисперсия |
ДИСП(массив данных) |
Стандартное отклонение |
СТАНДОТКЛОН(массив данных) |
Медиана |
МЕДИАНА(массив данных) |
Мода |
МОДА(массив данных) |
Коэффициент эксцесса |
ЭКСЦЕСС(массив данных) |
Коэффициент асимметрии |
СКОС(массив данных) |
Перцентиль 40 % |
ПЕРСЕНТИЛЬ(массив данных; 0,4) |
Перцентиль 80 % |
ПЕРСЕНТИЛЬ(массив данных; 0,8) |
В результате выполненных действий у Вас появится табл. 3.2.2 из двух столбцов, к которой мы добавим третий для комментариев.
Таблица 3.2.2
Характеристика |
Функция |
Комментарии |
Объем выборки |
25 |
Число данных 25 |
Выборочное среднее |
20,48 |
В среднем за период продано 20,48 автомобилей |
Дисперсия |
18,51 |
Квадрат разброса значений |
Стандартное отклонение |
4,302324953 |
Средний разброс значений вокруг среднего |
Медиана |
20 |
Вероятность продать больше 20 авто равна вероятности продать меньше 20 и равна 0,5. |
Мода |
19 |
Чаще всего продается по 19 авто. |
Коэффициент эксцесса |
-0,163762777 |
Максимум на графиках имеется, но не резко выраженный |
Коэффициент асимметрии |
0,2590645 |
Распределение немного смещено относительно среднего значения в область меньших продаж |
Перцентиль 40 % |
19 |
С вероятностью не более 0,4 будет продано не более 19 авто |
Перцентиль 80 % |
23,2 |
С вероятностью не более 0,8 будет продано не более 23,2 авто |
Существует другой способ вычисления числовых характеристик выборки. Для этого ставим курсор в свободную ячейку (например, D1). Затем, если у Вас версия Excel 2003 и ниже, вызываем в меню «Сервис» подменю «Анализ данных» (Data Analysis). Если в меню «Сервис» отсутствует этот пункт, то в меню «Сервис» выбраем пункт «Надстройки» и в нем ставим флажок напротив пункта «Пакет анализа» (Analysis ToolPak). После этого в меню «Сервис» появится «Анализ данных» (Data Analysis). При работаете в «EXCEL 2007» или более поздней версии нажимаем левой кнопкой мыши по круглой кнопке “Office” в верхнем левом углу экрана, внизу выбираем «Параметры EXCEL», слева выбираем НАДСТРОЙКИ, нажимаем кнопку «Перейти» внизу окна и в открывшемся окне проверяем наличие флажка напротив пункта «Пакет анализа» (Analysis ToolPak), «ОК». В меню ДАННЫЕ выбираем «Пакет анализа» (Analysis ToolPak), открывается окно надстройки.
В окне «Анализ данных» нужно выбрать пункт «Описательная статистика» (Descriptive Statistics). В появившемся окне в поле «Входной интервал» (Input Range) делаем ссылку на выборку А1-А25, помещая курсор в поле и обводя эти ячейки. Оставляем группирование «По столбцам» (Columns). В разделе «Параметры вывода» (Output Options) ставим флажок на «Выходной интервал» (Output Range) и в соседнем поле задаем ссылку на верхнюю левую ячейку области вывода (например, D1), ставим флажок напротив «Описательная статистика» (Summary Statistics), нажимаем «ОК». Результат — основные характеристики выборки (сделайте шире столбец D, переместив его границу в заголовке).
Рассмотрим теперь методы интервального оценивания. Доверительным интервалом называется интервал (а; Ь), в который с заданной вероятностью р попадает оцениваемый параметр. Вероятность р называется доверительной.
Вместо нее часто задают величину а -1 - р, называемую уровнем значимости.
Если выборка объема п представляет случайную величину, распределенную
нормально, то доверительные интервалы для математического ожидания (сред
него значения) и дисперсии равны
т е

?S2- $2 •(«-!) где tp(n) и %р(п) — квантили распределения Стьюдента и хи-квадрат, а = I - р. Находясь на листе с данными примера, вычислим доверительные интервалы прир = 0,05. Вводим подписи согласно рис. 3.2.2. 7 G | Н I 1 Уровень значимости 0,05 2 Интервал Левая граница Правая граница 3 Матожидание 4 Г Дисперсия Рис. 3.2.2 Для вычисления величины ----'-*=---- служит функция «ДОВЕРИТ»
у/П
категории «Статистические» с тремя параметрами «Альфа» — уровень значимости а = 1 - р, «Станд откл» — среднеквадратическое отклонение S, «Размер» — объем выборки и. Таким образом, вводим в НЗ функцию
«=СРЗНАЧ(А1:А25)-ДОВЕРИТ(П ;СТАНДОТКЛОН(А1:А25);25) »,
а в ячейку 13 функцию
«=СРЗН АЧ(А1: А25)+ДОВЕРИТ(И ;СТАНДОТКЛОН(А1: А25);25)».
Получили доверительный интервал от 18,79 до 21,17. Это означает, что при тех же условиях в случайно выбранный день с вероятностью 0,95 число проданных автомобилей будет не менее 18,79 и не более 21,17.
Для вычисления доверительного интервала для дисперсии следует отметить, что функция вычисления квантилей распределения хи-квадрат (обратного распределения хи-квадрат) называется «ХИ2ОБР» (категория «Статистические») и имеет два параметра: первый «Вероятность» содержит доверительную вероятность р, второй — степень свободы (п - 1). Вводим в соответствии с данными условиями и формулой для доверительного интервала в ячейку Н4 запись: «=ДИСП(А1 :А25)*24/ХИ2ОБР(0,025;24)»,
а в ячейку 14 запись: «=ДИСП(А1:А25)*24/ХИ2ОБР(0,975;24) ».
Получаем значения границ доверительных интервалов: от 11,29 до 35,82, то есть в случайно выбранный день квадрат отклонения от среднего с вероятностью 0,95 попадает в этот интервал.