Skip to content

Жизнь в стиле V.I.P.

  • Карта сайта

Однофакторный дисперсионный анализ

03.06.2020 by admin

Кирилл Сергеевич Мильчаков

В данной статье пойдет речь о сути применения дисперсионного анализа и смысле это процесса. Казалось бы зачем мне нужен дисперсионный анализ (ANOVA) если существует такой прекрасный и понятный статистический критерий, как т-критерий Стьюедента? Однако, здесь стоит внимательно разобраться. Главное ограничение т-критерия перед дисперсионным анализом состоит в том, что первый предназначен для парных сравнений, то есть ситуации, когда у нас есть только две группы и он нуждается в поправках на множественные сравнения, в случае, если у нас более двух групп, во-вторых представим, если у нас 6 групп и мы ищем статистически значимые различия между ними, сколько попарных сравнений в таком случае нужно сделать? Много 🙂
В таком случае гораздо проще использоваться критерий, который предназначен для ситуаций, когда много групп и который нам даст единый ответ на все изучаемые группы — дисперсионный анализ.

Содержание

  • Условия применения дисперсионного анализа ANOVA
  • Статистическая информация для применения однофакторного дисперсионного анализа
  • Апостериорные значения
  • Пример
  • Примеры решений по ДА онлайн
  • Полезные ссылки

Условия применения дисперсионного анализа ANOVA

Перед тем как приступить к применению дисперсионного анализа, который предназначен для минимизации риска неправильной оценки ошибки 1 рода в случае множественных сравнений необходимо убедиться в соблюдении ряда условий:

  1. Количественный непрерывный тип данных, дискретные данные менее желательны.
  2. Независимые между собой выборки.
  3. Нормальное распределение признака в статистических совокупностях, из которых извлечены выборки.
  4. Равенство (гомогенность) дисперсий изучаемого признака в статистических совокупностях из которых извлечены выборки, проверяется с помощью критерия Levene.
  5. Независимые наблюдения в каждой из выборок.

Статистическая информация для применения однофакторного дисперсионного анализа

Ho в случае однофакторного дисперсионного анализа (ANOVA) подразумевает, что средние генеральных совокупностей из которых были извлечены выборки равны, другими словами все они относятся к одной генеральной совокупности и различия носят случайный характер. Для проверки теорий в случае дисперсионного анализа используется F-распределение. F-статистика принимает только положительные или нулевые значения.

Процедура дисперсионного анализа состоит в определении соотношения систематической (межгрупповой) дисперсии к случайной (внутригрупповой) дисперсии в измеряемых данных. В качестве показателя изменчивости используется сумма квадратов отклонения значений параметра от среднего: SS (от англ. Sum of Squares). Общая сумма квадратов SSTotal раскладывается на межгрупповую сумму квадратов SSBG и внутригрупповую сумму квадратов SSWG:

SSTotal = SSBG + SSWG

В случае если верна Ho, то как внутригрупповая, так и межгрупповая дисперсии служат оценками одной и той же дисперсии и должны быть приблизительно равны.

Исходя из этого значение F должно быть близко к 1 в случае, если статистически значимых различий все-таки нет. Критическое значение F определяется уровнем значимости (обычно 0,05 или 0,01) и внутригрупповым и межгрупповым числом степеней свободы (ν). Оно достаточно сложно для вычисления, поэтому чаще используются табличные значения с указанием α, νBG, νWG.

Межгрупповое число степеней свободы:

νBG = m – 1.

m – число групп

Внутригрупповое число степеней свободы:

νWG = n – m

n – количество наблюдений в каждой из групп

Апостериорные значения

Однако, при обнаружении статистически значимых отличий мы не сможем сказать лишь об их наличии, но какие именно группы отличаются друг от друга мы определить не сможем, для этого производят так называемые процедуры апостериорных сравнений. Апостериорные сравнения представляют собой попарные сравнения изучаемых групп для обнаружения различий между ними.

Апостериорные сравнения могут быть проведены с помощью критерия Стьюдента для независимых выборок, что может показаться странным, учитывая сказанное ранее о проблеме множественных сравнений. Однако в отличие от простых попарных сравнений при проведении апостериорных сравнений рассчитываются новые критические уровни значимости для удержания ошибки 1 типа в пределах 5 %.

Наиболее простым и наиболее популярным способом коррекции ошибки 1 типа является поправка Бонферрони (Bonferroni), при которой уровень ошибки 1 типа делится на количество сравнений для получения нового критического уровня значимости. Так, если имеется 3 сравнения, то новый критический уровень должен быть 0,05 / 3 = 0,017. Поправка Бонферрони хорошо контролирует ошибку 1 типа, но является очень консервативной и приводит к повышению вероятности ошибки 2 типа (вероятности принятия решения об отсутствии различий там, где они на самом деле есть). Либеральные критерии, (например критерий Тьюки) в свою очередь, завышают вероятность ошибки 1 типа, то есть вероятность принятия решения о наличии различий там, где их нет.

Таким образом, при выборе статистического критерия для апостериорных сравнений необходимо принимать во внимание, как критерии контролируют ошибки 1 и 2 типов и как они работают при несоблюдении необходимых условий применения дисперсионного анализа.

Если данные не подчиняются нормальному распределению, то при анализе можно использовать два способа: применением различных арифметических преобразований до достижения нормальности распределения и дальше уже применять дисперсионный анализ, или использовать критерий Краскела-Уоллиса (Kruskal-Wallis H-test), иногда его также называют непараметрическим дисперсионным анализом. Как и в большинстве непараметрических методов, работающих с количественными данными, исходный набор данных преобразуется в ранги и обрабатывается уже он. При обнаружении статистически значимых различий между группами стоит дальше проводить апостериорные сравнения с использованием критерия Манна-Уитни.

Пример

В условиях крупной городской клинической больницы было решено провести исследование по оценке влияния возраста на длительность госпитализации после лапароскопической холецистектомии. 9 пациентов были разделены на 3 группы в зависимости от возраста

Длительность госпитализации

после лапароскопической холецистектомии в зависимости от возраста, дни

Группа №1Младше 45 лет Группа №245-55 лет Группа №3Старше 55 лет
3 5 7
1 3 6
2 4 5
x̄=2 x̄=4 x̄=6

Сделайте выводы о влиянии возраста на длительности госпитализации после лапароскопической холецистектомии.

  1. Постановка нулевой гипотезы

H0 указывает на отсутствие различий между группами, иными словами все группы по возрасту относятся к одной генеральной совокупности и соответственно средние равны друг другу

µ1= µ2= µ3

Альтернативная гипотеза выдвигает предположение, что длительно госпитализации зависит от возраста и средние в этих группах на самом деле не равны

µ1≠ µ2≠ µ3

  1. Найдем общую сумму квадратов

Для этого нам нужно знать общую среднюю по всем выборкам, найдем ее:

x̄= (2+3+6)=4

SST =2 = (3-4)2+(1-4) 2+(2-4) 2+(5-4) 2+(4-4) 2+(3-4) 2+(7-4) 2+

+(6-4) 2+(5-4) 2=30

  1. Найдем сумму квадратов внутри групп последовательно вычитая из каждого значения в группе групповую среднюю:

SSWG = (3-2)2 + (1-2) 2 + (2-2) 2 + (5-4) 2 + (3-4) 2 + (4-4) 2 + (7-6) 2 + (6-6) 2 + (5-6)2 =2+2+2=6

  1. Найдем внутригрупповую сумму квадратов.

Для этого нам необходимо найти квадрат отклонения каждой из выборочных средних относительно общей вредней:

SSBG =3(2-4)2+3(4-4)2+3(6-4)2=24

  1. Найдем значение критерия Фишера, исходя из средних квадратов отклонений внутри групп и между ними и соответствующих степеней свободы:

νBG = m – 1 = 3-1 = 2

νWG = n – m = 9 – 3 = 6

F= 12, Fкрит. = 5,143 при α = 0,05

F > Fкрит

  1. Делаем вывод о наличии статистически значимых отличий между группами:

так как наше значение F больше критического значения при заданном количестве наблюдений и количестве групп, иными словами наша дисперсия между группами вносит больший вклад в любую сумму дисперсий, чем таковая внутри самих групп.

Дисперсионный анализ применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную. В этом разделе мы приведем примеры решенных учебных задач по однофакторному дисперсионному анализу.

Суть дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F — критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Лучшее спасибо — порекомендовать эту страницу

Примеры решений по ДА онлайн

Пример 1. При уровне значимости α=0,05 методом дисперсионного анализа проверить нулевую гипотезу о влиянии фактора на качество объекта на основании пяти измерений для трех уровней фактора Ф1 – Ф3.
Номер измерения Ф1 Ф2 Ф3
1 18 24 36
2 28 36 12
3 12 28 22
4 14 40 45
5 32 16 40

Пример 2. Используя анализ однофакторной модели, проверить гипотезу о влиянии методик на оценку качества признака.

Исследуется эффективность обучения тремя различными методами. Студентам дается задание изучить тему «Денежная система в Англии». Для этого 10 студентов конспектируют первоисточник, 10 изучают ее по программированному учебнику, 10 – с помощью обучающих компьютерных программ. По окончании их уровень знаний проверяется с помощью теста, состоящего из 100 вопросов. Результаты представлены в таблице:

Вопросы:
1) Влияет ли методика изучения темы на результат? Есть ли значимые различия между тремя выборками по уровню усвоения материала?
2) Есть ли статистически значимая тенденция возрастания показателей в порядке «первоисточник» — «учебник» — «компьютер»?

Пример 3. В течение шести лет использовались четыре различных технологии по выращиванию сельскохозяйственной культуры. Необходимо установить влияние различных технологий на урожайность культуры по данным таблиц. Задачу просчитать вручную и на ПЭВМ.

Нужно решить задачи по дисперсионному анализу?

Полезные ссылки

  • Статистические таблицы и формулы
  • Решение задач по математической статистике на заказ
  • Решенные контрольные по математической статистике

Основной целью дисперсионного анализа является исследование значимости различия между средними. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (это если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (это если сравниваются две переменные на одном и том же множестве объектов или наблюдений).

Дисперсионный анализ имеет такое название в связи с некоторыми факторами. Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.

Дисперсионный анализ — метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of Variance).

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, на сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята дисперсия. Дисперсия σ2 – мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с.-х. продукции.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы .

Методы дисперсионного анализа

  1. Метод по Фишеру (Fisher) — критерий F; Метод применяется в однофакторном дисперсионном анализе, когда совокупная дисперсия всех наблюдаемых значений раскладывается на дисперсию внутри отдельных групп и дисперсию между группами.
  2. Метод «общей линейной модели». В его основе лежит корреляционный или регрессионный анализ, применяемый в многофакторном анализе.

Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному t-критерию Стьюдента для независимых выборок, и величина F-статистики равна квадрату соответствующей t-статистики.

Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (Levene’s test). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применяется F-критерий Фишера.Если F-статистика превышает критическое значение, то нулевая гипотеза отвергается и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть интерпретированы непосредственно после применения критерия Фишера.

Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t-критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен. Вам нужно сделать определенные усилия, чтобы овладеть техникой дисперсионного анализа, реализованной на STATISTICA, и ощутить все ее преимущества в конкретных исследованиях.

Двухфакторная дисперсионная модель имеет вид:

xijk =μ+Fi +Gj +Iij +εijk ,

где xijk — значение наблюдения в ячейке ij с номером k; μ — общая средняя; Fi — эффект, обусловленный влиянием i-го уровня фактора А; Gj — эффект, обусловленный влиянием j-го уровня фактора В; Iij — эффект, обусловленный взаимодействием двух факторов, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели ; εijk — возмущение, обусловленное вариацией переменной внутри отдельной ячейки. Предполагается, что εijk имеет нормальный закон распределения N(0; с2 ), а все математические ожидания F* , G* , Ii* , I*j равны нулю.

Существуют условия применения дисперсионного анализа:

  1. Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).
  2. Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.
  3. Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. — random), т.е. выбранные наугад.
  4. Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

  1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.
  2. Независимость (не связанность) распределения наблюдений в группах.
  3. Наличие частоты (повторность) наблюдений.

Нормальность распределения определяется кривой Гаусса (Де Мавура), которую можно описать функцией у=f(х), так как она относится к числу законов распределения, используемых для приближенного описания явлений, которые носят случайный, вероятностный характер. Предмет медико-биологических исследований — явления вероятностного характера, нормальное распределение в таких исследованиях встречается весьма часто.

Классический дисперсионный анализ проводится по следующим этапам:

  1. Построение дисперсионного комплекса.
  2. Вычисление средних квадратов отклонений.
  3. Вычисление дисперсии.
  4. Сравнение факторной и остаточной дисперсий.
  5. Оценка результатов с помощью теоретических значений распределения Фишера-Снедекора
  6. Современные приложения дисперсионного анализа охватывают широкий круг задач экономики, биологии и техники и трактуются обычно в терминах статистической теории выявления систематических различий между результатами непосредственных измерений, выполненных при тех или иных меняющихся условиях.
  7. Благодаря автоматизации дисперсионного анализа исследователь может проводить различные статистические исследования с применение ЭВМ, затрачивая при этом меньше времени и усилий на расчеты данных. В настоящее время существует множество пакетов прикладных программ, в которых реализован аппарат дисперсионного анализа. Наиболее распространенными являются такие программные продукты как: MS Excel, Statistica; Stadia; SPSS.

В современных статистических программных продуктах реализованы большинство статистических методов. С развитием алгоритмических языков программирования стало возможным создавать дополнительные блоки по обработке статистических данных.

Дисперсионный анализ является мощным современным статистическим методом обработки и анализа экспериментальных данных в психологии, биологии, медицине и других науках. Он очень тесно связан с конкретной методологией планирования и проведения экспериментальных исследований.

Дисперсионный анализ применяется во всех областях научных исследований, где необходимо проанализировать влияние различных факторов на исследуемую переменную.

Метод дисперсионного анализа создан английским статистиком Фишером.

Дисперсионный анализ – это статистический метод изучения различий между выборочными средними для трех и более совокупностей .

Слово «дисперсионный» в названии указывает на то, что в процессе анализа сопоставляются компоненты дисперсии изучаемой переменной. Общая изменчивость переменной раскладывается на составляющие: межгрупповую (факторную), обусловленную различием групп (средних значений), и внутригрупповую (остаточную), обусловленную случайными причинами. Чем больше частное от деления межгрупповой и внутригрупповой изменчивости (F-отношение) тем больше различаются средние значения сравниваемых выборок и тем выше статистическая значимость этого различия.

Дисперсионный анализ используется для обработки экспериментальных данных, результатов опроса, данных наблюдений.

В практике маркетинговых исследований дисперсионный анализ применяют с целью установления влияния некоторого категориального фактора F, имеющего несколько уровней (F1, F2, …, Fp) на зависимую переменную X. Категориальный фактор выступает в роли независимой переменной, влияющей на зависимую переменную.

Обязательным условием применения дисперсионного анализа является метрический характер зависимой переменной (шкала интервальная или шкала отношений) и неметрический характер независимых переменных (шкала наименований или порядка).

В маркетинговых исследованиях под фактором F (независимой переменной) чаще всего принимают:

· социально-демографические, поведенческие и прочие характеристики потребителей (пол, возраст, социальное положение, доход, степень осведомленности о продукте и прочее);

· отдельные элементы комплекса маркетинга (цена, ассортимент, интенсивность рекламной кампании, интенсивность комплекса мер по стимулированию сбыта, варианты упаковки товара, виды рекламных роликов и прочее).

Зависимой переменной X может выступать объем покупок, частота покупок, предпочтение товара или торговой марки, имидж фирмы, оценка потребительских намерений приобретения товара, вероятность покупки товара и другие переменные.

Количество независимых и зависимых переменных определяют вид дисперсионного анализа.

Виды дисперсионного анализа:

1. Одномерный дисперсионный анализ — вид дисперсионного анализа, при помощи которого исследуется влияние одной или нескольких независимых переменных на одну зависимую переменную (ANOVA: Analysis of Variance). Он включает в себя:

· однофакторный дисперсионный анализ – вид дисперсионного анализа, при помощи которого исследуется влияние одной независимой переменной, имеющей несколько уровней, на одну зависимую переменную. Пример постановки вопросов однофакторного дисперсионного анализа: какой из трех (или более) рекламных роликов имеет лучшую запоминаемость? Влияет ли тип рекламы (плакаты, реклама по радио и др.) на число посетителей в кинотеатре?

· многофакторный дисперсионный анализ – вид дисперсионного анализа, при помощи которого исследуется влияние нескольких (двух и более) независимых переменных, каждая из которых имеет несколько уровней, на одну зависимую переменную.

Пример постановки вопросов двухфакторного дисперсионного анализа: влияет ли на выбор потребителя уровень образования (высшее, среднее, неполное среднее) и возраст?

Как осведомленность о магазине (высокая, средняя, низкая) и представление о нем (позитивное, нейтральное, негативное) влияют на предпочтения потребителей?

Пример постановки вопроса трехфакторного дисперсионного анализа: как меняется намерение потребителей купить товар при различных уровнях цен, каналах распределения и интенсивности рекламной кампании?

Главным преимуществом многофакторного дисперсионного анализа является возможность исследовать эффект взаимодействия факторов. Взаимодействие имеет тогда, когда эффект одного фактора на зависимую переменную зависит от уровня других факторов. Например, многофакторный дисперсионный анализ позволяет ответить на вопрос: усиливают ли друг друга реклама по радио и мероприятия прямого маркетинга, проводимые в торговом центре?

2. Многомерный дисперсионный анализ — вид дисперсионного анализа, при помощи которого исследуется влияние нескольких независимых переменных на несколько зависимых переменных (МANOVA: Multiple Analysis of Variance). Например: как интенсивность рекламы (высокая, средняя, низкая) и уровень цены (высокий, средний, низкий) одновременно влияют на объем продаж и имидж магазина?

В основе техники проведения дисперсионного анализа лежит разложение полной дисперсии зависимой переменной Х на составляющие: межгрупповую (факторную), обусловленную воздействием фактора на зависимую переменную, и внутригрупповую (остаточную), обусловленную случайными причинами. Чем больше частное от деления межгрупповой и внутригрупповой дисперсий (F-отношение) тем больше различаются средние значения сравниваемых выборок и тем выше статистическая значимость этого различия.

Post navigation

Previous Post:

Медицинская тайна

Next Post:

Документ о регистрации по месту жительства

Добавить комментарий Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Свежие записи

  • Валюта словении
  • 258 УК
  • Страховой премии
  • Среднесрочные цели
  • Лотерея как организовать
  • Лизинг минусы
  • Судебная система в РФ схема
  • Что такое перестрахование (простым языком)?
  • Техника безопасности при стрельбе из автомата
  • Продажа акций НДФЛ
  • Законы полиции
  • Кто такой грузчик?
  • Эвакуационные выходы
  • Что такое токинг?
  • Как стать работником?
  • Структуры права
  • Ссудный капитал и ссудный процент
  • Оборотные средства
  • Химчистка испортила вещь
  • Социально гигиенический мониторинг

Рубрики

  • Бизнес

Страницы

  • Карта сайта
© 2020 Жизнь в стиле V.I.P. | WordPress Theme by Superb Themes