Описательные методы анализа количественных данных
Дескриптивный анализ: распределение частот, долей, процентов и пропорций. Статистический анализ. Основные и альтернативные гипотезы. Статистические критерии (тесты), используемые в рекламной деятельности
Когда данные уже собраны, начинается их анализ - организация данных, изучение и применение статистических критериев. При анализе данных используются различные методы.
Дескриптивный анализ
Данные можно описывать в виде распределения частот, долей, процентов и пропорций.
Распределение частот. Каждый ответ определяют к одной из категории шкалы, после чего отмечают его возле той категории, к которой он отнесен. Распределением частот считают окончательный результат подсчета числа ответов по каждой из категорий. Подсчет выполняется вручную или на компьютере.
Доли, проценты и пропорции. После построения распределения частот выбирается один из трех типов анализа:
- - доли (освещают относительную частоту ответов в категории, являются отношением числа ответов конкретной категории к общему числу ответов по всем категориям);
- - проценты (вычисляются путем деления количества ответов на общее число ответов с последующим умножением на 100);
- - пропорции (пропорция одного числа X в отношении другого числа Y определяется как X/Y, что дает возможность четкого представле ния соотношения между относительным размером двух категорий, участвующих в анкетном опросе).
В процессе изучения данных рассматриваются дискретные и непрерывные данные. Дискретные данные заключают в себе ответы, ограниченные конкретным набором целых чисел, отделенных друг от друга одинаковыми интервалами. Непрерывные данные дают возможность для ответа, при котором значения могут располагаться как угодно близко друг к другу на числовой шкале. Эти данные обычно группируются:
- - путем ранжирования;
- - через выявление числа и ширины интервалов категорий;
- - через построение распределения частот.
Статистический анализ
При сборе данных на интервальном и относительном уровне используется статистический анализ. В основном используются следующие статистики.
Среднее где Xi - наблюдаемые данные, п - их количество. При интервальном измерении X, - середина интервалов. Среднее дает возможность представить единственным числом множество ответов на вопрос анкеты.
Стандартное отклонение
Дисперсия - это квадрат стандартного отклонения. Стандартное отклонение и дисперсия выражают меру отклонения (разброса) значений около среднего.
Медиана (Me) - это такое значение выборки, которое делит выборку на две примерно одинаковые по численности части.
Если в выборке разница крайних значений существенна, то в качестве выборочной характеристики среднего лучше использовать медиану (а не X).
Мода (Mo) - это то значение выборки, которое имеет наибольшую частоту (т. е. это часто встречающееся значение выборки).
Проводя статистический анализ, исследователь должен быть уверен в достоверности выводов, которые он делает. Он должен знать, какой доверительный уровень выбрать. Одни распределения симметричны, другие нет, у симметричных распределений значения среднего, медианы и моды совпадают. Исследователь также должен знать о правиле трех сигм: 68 % собранных по определенному признаку данных находятся от среднего на расстоянии не больше, чем значения стандартного отклонения; 95,4 % - на расстоянии не больше двух стандартных отклонений; а 99,7 % - на расстоянии не больше трех стандартных отклонений и т. д.
На основании вычисления выборочных характеристик исследователь делает выводы, опираясь на субъективные рассуждения, если не может воспользоваться методами статистики. Если же он хочет добиться большего уровня достоверности, ему необходимо применить статистический анализ. С его помощью он получит математическую оценку уровня доверия и определит статистическую значимость различий в ответах разных групп. Методы статистических выводов используют гипотезы - основные и альтернативные. Основная гипотеза - утверждение об отсутствии различий связи или иных закономерностей. Альтернативы бывают односторонние и двусторонние. После выдвижения предположений исследователь определяет уровень значимости, т. е. вероятность отрицания основной гипотезы, когда она на самом деле верна.
Выводы об одном параметре на основе одной выборки
В этом случае могут применяться два типа анализа.
А. Сравнение выборочного среднего или доли с соответствующим средним или долей генеральной совокупности.
Б. Исследование внутренних свойств одной выборки.
Первый тип анализа заключается в сравнении средних значений. В этом случае также есть варианты.
1. Выборка большого объема, интервальный или относительный уровень измерения. Схематически основная и альтернативная гипотезы записываются так:
Н0:Х=р
Ну. X > ц (или X < ц, или двусторонняя: X ц).
Здесь X - выборочное среднее, а ц - среднее генеральной совокупности. Для проверки гипотез используется критерий (или тест), который предусматривает вычисление статистики критерия Z = (X -ц)/(о/ л/й), которая, в свою очередь, имеет стандартное нормальное распределение. В этой формуле о - стандартное отклонение генеральной совокупности. Далее из таблицы значений функции стандартного нормального распределения находят при заданном уровне значимости критическое значение критерия ZKpHT, который сравнивают с Z. Если Z > ZKpHT, то основная гипотеза отвергается.
2. Выборка небольшого объема, интервальный или относительный уровень измерения. Гипотезы предлагаются такие же, как и в пункте 1, но с применением другого критерия: t = (X - p)/(s/ 4п ), где s -выборочное стандартное отклонение. Эта статистика подчиняется распределению Стьюдента. Из таблицы значений распределения Сть-юдента с заданным уровнем значимости и числом степеней свободы п-1 находят критическое значение ?крит. Если t > Гкрит, то основная гипотеза отвергается.
Второй тип анализа и задача сравнения долей. Для этого вида анализа выдвигаются гипотезы:
Но: р = Ри
Ну. р > Ри,
где р - доля выборки, включающая выбравших целевой вариант ответа, Ри - доля респондентов генеральной совокупности, выбравших целевой вариант ответа. Для проверки гипотез вычисляется статистика критерия Z = (р - Рм)/( 4Ри • Qu/n), где Qu - доля респондентов, выбравших альтернативный вариант ответа; п - объем выборки. Далее из таблицы значений стандартного нормального распределения при заданном уровне значимости находят ZKpHT и сравнивают с Z. Если Z > ZKpHT, то основную гипотезу отвергают.
С помощью критерия хи-квадрат можно исследовать наличие действительных различий между категориями ответов. Таким образом, при применении критерия хи-квадрат основная гипотеза утверждает, что наблюдаемые частоты эквивалентны ожидаемым, а альтернативная гипотеза утверждает, что они не равны. Статистика этого критерия = Е г- (0г - ?,•)2 /Е,-, где Е, - ожидаемая частота z-й категории, a Qi - наблюдаемая частота той же категории. Из таблицы значений распределения критерия хи-квадрат при заданном уровне значимости и числе степеней свободы берут критическое значение и сравнивают с вычисленной статистикой.
Пример 8.1
Допустим, у рекламиста есть четыре разных рекламных ролика. Он хочет узнать, какой из них лучше передает целевое сообщение. Респондент выбирает один.
Результаты опроса 100 респонден тов представлены в таблице:
Ролик |
Частота выбора данного ролика |
1 |
46 |
2 |
20 |
3 |
25 |
4 |
9 |
Итого |
1(H) |
Гипотезы:
Н: Xi = Хг = Хз = Xi — предпочтения респондентов распределяются одинаково.
Альтернативная гипотеза: не одинаково.
Расчетное значение критерия определяется по формуле:
Хкв, расч = Х, (Qi- Ej)2 /Ei = 28,88, где ^ заданы в таблице, а Е, = 25 (равномерно).
Табличное значение Хкв,Табл = 7,82 при уровне значимости 0,05 и числе степеней свободы 3 (3 = 4—1).
Так как Хкв, расч > Хкв.табл, то Н отвергается.
Выводы об одной переменной на основе двух независимых выборок
1. Большая выборка, интервальный и относительный уровень измерения
Рекламисты часто сравнивают разные группы людей. Их могут интересовать группы, отличающиеся по какой-либо переменной, связанной с рекламированием: по осведомленности о рекламе; по степени воздействия на них рекламы; по воздействию на них различных типов рекламы; сравнивание потребителей, использующих данную марку, с теми, кто ею не пользуется; молодых потребителей с пожилыми потребителями и т. д.
В данном случае применяется критерий: Z = (Xt -Х2)/ , — + — > / N п1 п2 где X] и Х2 - выборочные средние, a si и s2 - выборочные стандартные отклонения двух выборок; соответственно п и п2- объемы этих выборок. Из таблицы значений стандартного нормального распределения при заданном уровне значимости находят 7крит. Если Z > ZKpiIT, то основную гипотезу отвергают.
Пример 8.2
Компания Lukoil желает сравнить реакцию автомобилистов на свой рекламный ролик с реакцией на рекламный ролик компании Shell по степени убедительности.
Гипотезы: Н: Xbukoii = Xsheii (средние оценки убедительности не отличаются).
Альтернативная гипотеза: отличаются.
Были опрошены две группы покупателей бензина. Первая группа (50 человек) оценивали три рекламных ролика Lukoil, а вторая группа (40 человек) три рекламных ролика Shell по пятибалльной шкале. Результаты представлены в таблице.
Lukoil |
Shell |
|
Средняя убедительность |
4,2 |
3,6 |
Дисперсия |
1,7 |
1,5 |
Расчетное значение критерия находится по формуле:
/
Zpacn = № ~Х2) р + =2,25.
/ V «1 п2
Табличное значение Z-габл = 1,96 при уровне значимости 0,05. Так как Zpacn < ZKpnr, то Н отвергается.
2. Небольшая выборка, интервальный или относительный уровень измерения
При постановке задачи, как в пункте 1 (с. 58), используется критерий Стьюдента. Вычисляется статистика:
t X, -Х2 / («2-lfe2 1 1
/У Щ п2-2 «1 «2
Далее из таблицы значений распределения Стьюдента при заданном уровне значимости и числе степеней свободы п + п2 - 2 находят ?крит и сравнивают с t.
Пример. Пусть в предыдущем примере число респондентов 25 и 20 соответственно. Тогда Грасч = 1,58. Из таблицы распределения Стьюдента при уровне значимости 0,05 и числе степеней свободы 25 + 20-2 = 43. Так как Грасч < /Крит, то основная гипотеза не отвергается.
Выводы о поведении одной переменной в трех и более независимых выборках
Обозначенные выше критерии можно использовать в том случае, если необходимо оценить различия между двумя сравниваемыми средними, полученными в двух группах. Эти критерии неприемлемы, если нужно сравнить три или более средних: они не эффективны (сравнение, например, пяти средних требует вычисления десяти коэффициентов корреляций) и могут привести к неправильным выводам. Для устранения этих проблем применяется дисперсионный анализ (ДА). Однофакторный ДА применяется к одной зависимой переменной (например, намерение купить определенный товар) и сравнивает среднее этой переменной в трех и более независимых группах. Но предполагает, что средние равны, а Н] предполагает, что различия в значениях сравниваемых средних больше, чем можно ожидать, исходя из ошибки выборки. ДА требует сложных расчетов, поэтому при работе с ним используют компьютерные программы.
Задание для самостоятельной работы
НГТУ начал работу над реализацией информационной программы, цель которой -улучшить имидж этого учебного заведения среди старшеклассников, проживающих в населенных пунктах, удаленных от университета более чем на 50 км. Поставленная перед программой задача состоит в том, чтобы привлечь к обучению в университете старшеклассников, проживающих за пределами Новосибирска и его окрестностей. В течение определенного периода времени специалисты отслеживали отношение целевой аудитории и создали обширную базу данных по результатам предыдущих опросов. К концу первого года реализации программы университетом было опрошено 100 мужчин и 100 женщин из целевой аудитории (табл. 2). Ключевым показателем, использованным для оценки эффективности программы, стал вопрос: «Будете ли Вы рассматривать НГТУ как один из вариантов поступления?» Ответы на этот вопрос оценивались по семибалльной шкале, где 1 - «Ни в коем случае», а 7 - «Буду рассматривать в первую очередь».
На кого проведенная кампания подействовала сильнее: на женщин, на мужчин или на тех и других в равной степени?
Таблица 2
Мужчины |
Женщины |
Предыдущие опросы |
|
Буду рассматривать (среднее) |
4.1 |
4,5 |
3,2 |
Стандартное отклонение |
1.1 |
1,2 |
1.2 |
Тема 9
КОНКУРЕНЦИЯ