P 0 05
-
Пишу на заказ дипломные, курсовые, магистерские работы по психологии, а также рефераты и эссе; делаю контрольные, отчеты по практике и статистические расчеты.
Я профессиональный психолог и автор работ по психологии с многолетним стажем. Выступаю как индивидуальный предприниматель (ИП): заключаю договор, выдаю чеки об оплате.
Помогаю студентам-психологам более 12 лет (этот сайт существует с 2007). Делаю качественно и быстро. Помогу даже с очень трудными темами.
Вы всегда можете узнать у меня, как идут дела с дипломной; оперативно передать пожелания руководителя; спросить то, что не понятно. Я всегда на связи.
Опишите ситуацию, и я скажу стоимость написания вашей работы.
Главная / Статистические расчеты / Уровень статистической значимости
В таблицах результатов статистических расчётов в курсовых, дипломных и магистерских работах по психологии всегда присутствует показатель «р».
Например, в соответствии с задачами исследования были рассчитаны различия уровня осмысленности жизни у мальчиков и девочек подросткового возраста.
* — различия статистически достоверны (р≤0,05)
В правом столбце указано значение «р» и именно по его величине можно определить значимы различия осмысленности жизни в будущем у мальчиков и девочек или не значимы. Правило простое:
- Если уровень статистической значимости «р» меньше либо равен 0,05, то делаем вывод, что различия значимы. В приведенной таблице различия между мальчиками и девочками значимы в отношении показателя «Цели» — осмысленность жизни в будущем. У девочек этот показатель статистически значимо выше, чем у мальчиков.
- Если уровень статистической значимости «р» больше 0,05, то делается заключение, что различия не значимы. В приведенной таблице различия между мальчиками и девочками не значимы по всем остальным показателям, за исключением первого.
Содержание
- Откуда берется уровень статистической значимости «р»
- Что показывает уровень статистической значимости «р»
- Какой уровень статистической значимости лучше: 0,01 или 0,05
- Как найти p-value?
- 1. Определите ожидаемые в вашем эксперименте результаты
- 2. Определите наблюдаемые результаты вашего эксперимента
- 3. Определите число степеней свободы вашего эксперимента
- 4. Сравните ожидаемые и наблюдаемые результаты с помощью критерия хи-квадрат
- 5. Выберите уровень значимости
- 6. Используйте таблицу с данными распределения хи-квадрат, чтобы найти ваше p-значение
- 7. Решите, отклонить или оставить вашу нулевую гипотезу
- Уровень надежности
- Уровень надежности в MS EXCEL
- Вариация
- Вероятность
- Время до события
- Выборка
- Гипотеза
- Дихотомические (бинарные) данные
- Доверительный интервал
- Достоверность, статистическая значимость (P – уровень)
- Исследование
- Исход
- Клиническая эпидемиология
- Когорта
- Контроль
- Корреляция
- Коэффициент риска (КР)
- Мета-анализ
- Метод Каплана – Мейера (Множительные оценки Каплана – Мейера)
- Модель Кокса
- Непараметрические методы статистики
- Признак (переменная)
- Рандомизация
- Риск
- Скользящий экзамен
- Событие
- Стратификация
- Таблица сопряженности
- Шанс
Откуда берется уровень статистической значимости «р»
Уровень статистической значимости вычисляется статистической программой вместе с расчётом статистического критерия. В этих программах можно также задать критическую границу уровня статистической значимости и соответствующие показатели будут выделяться программой.
Например, в программе STATISTICA при расчете корреляций можно установить границу «р», например, 0,05 и все статистически значимые взаимосвязи будут выделены красным цветом.
Если расчёт статистического критерия проводится вручную, то уровень значимости «р» выявляется путем сравнения значения полученного критерия с критическим значением.
Что показывает уровень статистической значимости «р»
Все статистические расчеты носят приблизительный характер. Уровень этой приблизительности и определяет «р». Уровень значимости записывается в виде десятичных дробей, например, 0,023 или 0,965. Если умножить такое число на 100, то получим показатель р в процентах: 2,3% и 96,5%. Эти проценты отражают вероятность ошибочности нашего предположения о взаимосвязи, например, между агрессивностью и тревожностью.
То есть, коэффициент корреляции 0,58 между агрессивностью и тревожностью получен при уровне статистической значимости 0,05 или вероятности ошибки 5%. Что это конкретно означает?
Выявленная нами корреляция означает, что в нашей выборке наблюдается такая закономерность: чем выше агрессивность, тем выше тревожность. То есть, если мы возьмем двух подростков, и у одного тревожность будет выше, чем у другого, то, зная о положительной корреляции, мы можем утверждать, что у этого подростка и агрессивность будет выше. Но так как в статистике все приблизительно, то, утверждая это, мы допускаем, что можем ошибиться, причем вероятность ошибки 5%. То есть, сделав 20 таких сравнений в этой группе подростков, мы можем 1 раз ошибиться с прогнозом об уровне агрессивности, зная тревожность.
Какой уровень статистической значимости лучше: 0,01 или 0,05
Уровень статистической значимости отражает вероятность ошибки. Следовательно, результат при р=0,01 более точный, чем при р=0,05.
В психологических исследованиях приняты два допустимых уровня статистической значимости результатов:
р=0,01 – высокая достоверность результата сравнительного анализа или анализа взаимосвязей;
р=0,05 – достаточная точность.
Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать
Что такое p-value?
P-значение (англ. P-value) — величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Проверка гипотез с помощью P-значения является альтернативой классической процедуре проверки через критическое значение распределения.
Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики. Википедия.
Иначе говоря, p-значение – это наименьшее значение уровня значимости (т.е. вероятности отказа от справедливой гипотезы), для которого вычисленная проверочная статистика ведет к отказу от нулевой гипотезы. Обычно p-значение сравнивают с общепринятыми стандартными уровнями значимости 0,005 или 0,01.
Например, если вычисленное по выборке значение проверочной статистики соответствует p = 0,005, это указывает на вероятность справедливости гипотезы 0,5%. Таким образом, чем p-значение меньше, тем лучше, поскольку при этом увеличивается «сила» отклонения нулевой гипотезы и увеличивается ожидаемая значимость результата.
Интересное объяснение этого есть на Хабре.
Статистический анализ начинает напоминать черный ящик: на вход подаются данные, на выход — таблица основных результатов и значение p-уровня значимости (p-value).
О чём говорит p-value?
Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.
Примеры про p-value
Итак, мы сравнили две группы школьников между собой по уровню агрессивности при помощи стандартного t-теста (или непараметрического критерия Хи — квадрат более уместного в данной ситуации) и получили, что заветный p-уровень значимости меньше 0.05 (например 0.04). Но о чем в действительности говорит нам полученное значение p-уровня значимости? Итак, если p-value — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет, то какое, на ваш взгляд, верное утверждение:
1.Компьютерные игры — причина агрессивного поведения с вероятностью 96%.
2. Вероятность того, что агрессивность и компьютерные игры не связаны, равна 0.04.
3. Если бы мы получили p-уровень значимости больше, чем 0.05, это означало бы, что агрессивность и компьютерные игры никак не связаны между собой.
4. Вероятность случайно получить такие различия равняется 0.04.
5. Все утверждения неверны.
Если вы выбрали пятый вариант, то абсолютно правы! Но, как показывают многочисленные исследования, даже люди со значительным опытом в анализе данных часто некорректно интерпретируют значение p-value.
Давайте разберём все ответы по порядку:
Первое утверждение — пример ошибки корреляции: факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Может быть, это более агрессивные люди предпочитают проводить время за компьютерными играми, а вовсе не компьютерные игры делают людей агрессивнее.
Это уже более интересное утверждение. Всё дело в том, что мы изначально принимаем за данное, что никаких различий на самом деле нет. И, держа это в уме как факт, рассчитываем значение p-value. Поэтому правильная интерпретация: «Если предположить, что агрессивность и компьютерные игры никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04».
А что делать, если мы получили незначимые различия? Значит ли это, что никакой связи между исследуемыми переменными нет? Нет, это означает лишь то, что различия, может быть, и есть, но наши результаты не позволили их обнаружить.
Это напрямую связано с самим определением p-value. 0.04 — это вероятность получить такие или ещё более экстремальные различия. Оценить вероятность получить именно такие различия, как в нашем эксперименте, в принципе невозможно!
Вот такие подводные камни могут скрываться в интерпретации такого показателя, как p-value. Поэтому очень важно понимать механизмы, заложенные в основании методов анализа и расчета основных статистических показателей.
Как найти p-value?
1. Определите ожидаемые в вашем эксперименте результаты
Обычно когда ученые проводят эксперимент, у них уже есть идея того, какие результаты считать «нормальными» или «типичными». Это может быть основано на экспериментальных результатах прошлых опытов, на достоверных наборах данных, на данных из научной литературы, либо ученый может основываться на каких-либо других источниках. Для вашего эксперимента определите ожидаемые результаты, и выразите их в виде чисел.
Пример: Например, более ранние исследования показали, что в вашей стране красные машины чаще получают штрафы за превышение скорости, чем синие машины. Например, средние результаты показывают предпочтение 2:1 красных машин перед синими. Мы хотим определить, относится ли полиция точно так же предвзято к цвету машин в вашем городе. Для этого мы будем анализировать штрафы, выданные за превышение скорости. Если мы возьмем случайный набор из 150 штрафов за превышение скорости, выданных либо красным, либо синим автомобилям, мы ожидаем, что 100 штрафов будет выписано красным автомобилям, а 50 синим, если полиция в нашем городе так же предвзято относится к цвету машин, как это наблюдается по всей стране.
2. Определите наблюдаемые результаты вашего эксперимента
Теперь, когда вы опредили ожидаемые результаты, необходимо провести эксперимент, и найти действительные (или «наблюдаемые») значения. Вам снова необходимо представить эти результаты в виде чисел. Если мы создаем экспериментальные условия, и наблюдаемые результаты отличаются от ожидаемых, то у нас есть две возможности – либо это произошло случайно, либо это вызвано именно нашим экспериментом. Цель нахождения p-значения как раз и состоит в том, чтобы определить, отличаются ли наблюдаемые результаты от ожидаемых настолько, чтобы можно было не отвергать «нулевую гипотезу» – гипотезу о том, что между экспериментальными переменными и наблюдаемыми результатами нет никакой связи.
Пример: Например, в нашем городе мы случайно выбрали 150 штрафов за превышение скорости, которые были выданы либо красным, либо синим автомобилям. Мы определили, что 90 штрафов были выписаны красным автомобилям, и 60 синим. Это отличается от ожидаемых результатов, которые равны 100 и 50, соответственно. Действительно ли наш эксперимент (в данном случае, изменение источника данных с национального на городской) привел к данному изменению в результатах, или наша городская полиция относится предвзято точно так же, как и в среднем по стране, а мы видим просто случайное отклонение? P-значение поможет нам это определить.
3. Определите число степеней свободы вашего эксперимента
Число степеней свободы — это степень изменяемости вашего эксперимента, которая определяется числом категорий, которые вы исследуете. Уравнение для числа степеней свободы – Число степеней свободы = n-1, где «n» это число категорий или переменных, которые вы анализируете в своем эксперименте.
Пример: В нашем эксперименте две категории результатов: одна категория для красных машин, и одна для синих машин. Поэтому в нашем эксперименте у нас 2-1 = 1 степень свободы. Если бы мы сравнивали красные, синие и зеленые машины, у нас было бы 2 степени свободы, и так далее.
4. Сравните ожидаемые и наблюдаемые результаты с помощью критерия хи-квадрат
Хи-квадрат (пишется «x2») это числовое значение, которое измеряет разницу между ожидаемыми и наблюдаемыми значениями эксперимента. Уравнение для хи-квадрата следующее x2 = Σ((o-e)2/e), где «o» это наблюдаемое значение, а «e» это ожидаемое значение. Суммируйте результаты данного уравнения для всех возможных результатов (смотри ниже).
Заметьте, что данное уравнение включает оператор суммирования Σ (сигма). Другими словами, вам необходимо подсчитать ((|o-e|-.05)2/e) для каждого возможного результата, и сложить полученные числа, чтобы получить значение критерия хи-квадрат. В нашем примере у нас два возможных результата – либо машина, получившая штраф красная, либо синяя. Поэтому мы должны посчитать ((o-e)2/e) дважды – один раз для красных машин, и один раз для синих машин.
5. Выберите уровень значимости
Теперь, когда мы знаем число степеней свободы нашего эксперимента, и узнали значение критерия хи-квадрат, нам нужно сделать еще одну вещь перед тем, как мы найдем наше p-значение. Нам нужно определить уровень значимости. Говоря простым языком, уровень значимости показывает, насколько мы уверены в наших результатах. Низкое значение для значимости соответствует низкой вероятности того, что экспериментальные результаты получились случайно, и наоборот. Уровни значимости записываются в виде десятичных дробей (таких как 0.01), что соответствует вероятности того, что экспериментальные результаты мы получили случайно (в данном случае вероятность этого 1%).
По соглашению, ученые обычно устанавливают уровень значимости своих экспериментов равным 0.05, или 5%. Это означает, что экспериментальные результаты, которые соответствуют такому критерию значимости, только с вероятностью 5% могли получиться чисто случайно. Другими словами, существует 95% вероятность, что результаты были вызваны тем, как ученый манипулировал экспериментальными переменными, а не случайно. Для большинства экспериментов 95% уверенности наличия связи между двумя переменными достаточно, чтобы считать, что они «действительно» связаны друг с другом.
Пример: для нашего примера с красными и синими машинами, давайте последуем соглашению между учеными, и установим уровень значимости в 0.05.
6. Используйте таблицу с данными распределения хи-квадрат, чтобы найти ваше p-значение
Ученые и статисты используют большие таблицы для вычисления p-значения своих экспериментов. Данные таблицы обычно имеют вертикальную ось слева, соответствующую числу степеней свободы, и горизонтальную ось сверху, соответствующую p-значению. Используйте данные таблицы, чтобы сначала найти число ваших степеней свободы, затем посмотрите на ваш ряд слева направо, пока не найдете первое значение, большее вашего значения хи-квадрат. Посмотрите на соответствующее p-значение вверху вашего столбца. Ваше p-значение находится между этим числом и следующим за ним (тем, которое находится левее вашего).
Таблицы с распределением хи-квадрат можно получить из множества источников (вот по можно найти одну из них).
Пример: Наше значение критерия хи-квадрат было равно 3. Так как мы знаем, что в нашем эксперименте всего 1 степень свободы, выберем самую первую строку. Идем слева направо по данной строке, пока не встретим значение, большее 3, нашего значения критерия хи-квадрат. Первое, которое мы находим это 3.84. Смотрим вверх нашего столбца, и видим, что соответствующее p-значение равно 0.05. Это означает, что наше p-значение между 0.05 и 0.1 (следующее p-значение в таблице по возрастанию).
7. Решите, отклонить или оставить вашу нулевую гипотезу
Так как вы определили приблизительное p-значение для вашего эксперимента, вам необходимо решить, отклонять ли нулевую гипотезу вашего эксперимента или нет (напоминаем, это гипотеза о том, что экспериментальные переменные, которыми вы манипулировали не повлияли на наблюдаемые вами результаты). Если ваше p-значение меньше, чем ваш уровень значимости – поздравляем, вы доказали, что очень вероятна связь между переменными, которыми вы манипулировали и результатами, которые вы наблюдали. Если ваше p-значение выше, чем ваш уровень значимости, вы не можете с уверенностью сказать, были ли наблюдаемые вами результаты результатом чистой случайности или манипуляцией вашими переменными.
Пример: Наше p-значение находится между 0,05 и 0,1. Это явно не меньше, чем 0,05, поэтому, к сожалению, мы не можем отклонить нашу нулевую гипотезу. Это означает, что мы не достигли минимум 95% вероятности того, чтобы сказать, что полиция в нашем городе выдает штрафы красным и синим автомобилям с такой вероятностью, которая достаточно сильно отличается от средней по стране.
Другими словами, существует 5-10% шанс, что наблюдаемые нами результаты – это не последствия смены места (анализа города, а не всей страны), а просто случайность. Так как мы потребовали точности меньше чем 5%, мы не можем сказать что мы уверены в том, что полиция нашего города менее предвзято относится к красным автомобилям – существует небольшая (но статистически значимая) вероятность, что это не так.
Дадим определение терминам уровень надежности и уровень значимости. Покажем, как и где они используется в MS EXCEL .
Уровень значимости (Level of significance) используется в процедуре проверки гипотез и при построении доверительных интервалов .
СОВЕТ : Для понимания терминов Уровень значимости и Уровень надежности потребуется знание следующих понятий:
- выборочное распределение среднего ;
- стандартное отклонение ;
- проверка гипотез ;
- нормальное распределение .
Уровень значимости статистического теста – это вероятность отклонить нулевую гипотезу , когда на самом деле она верна. Другими словами, это допустимая для данной задачи вероятность ошибки первого рода (type I error).
Уровень значимости обычно обозначают греческой буквой α ( альфа ). Чаще всего для уровня значимости используют значения 0,001; 0,01; 0,05; 0,10.
Например, при построении доверительного интервала для оценки среднего значения распределения , его ширину рассчитывают таким образом, чтобы вероятность события » выборочное среднее (Х ср ) находится за пределами доверительного интервала » было равно уровню значимости . Реализация этого события считается маловероятным (практически невозможным) и служит основанием для отклонения нулевой гипотезы о равенстве среднего заданному значению .
Ошибка первого рода часто называется риском производителя. Это осознанный риск, на который идет производитель продукции, т.к. он определяет вероятность того, что годная продукция может быть забракована, хотя на самом деле она таковой не является. Величина ошибки первого рода задается перед проверкой гипотезы , таким образом, она контролируется исследователем напрямую и может быть задана в соответствии с условиями решаемой задачи.
Чрезмерное уменьшение уровня значимости α (т.е. вероятности ошибки первого рода ) может привести к увеличению вероятности ошибки второго рода , то есть вероятности принять нулевую гипотезу , когда на самом деле она не верна. Подробнее об ошибке второго рода см. статью Ошибка второго рода и Кривая оперативной характеристики .
Уровень значимости обычно указывается в аргументах обратных функций MS EXCEL для вычисления квантилей соответствующего распределения: НОРМ.СТ.ОБР() , ХИ2.ОБР() , СТЬЮДЕНТ.ОБР() и др. Примеры использования этих функций приведены в статьях про проверку гипотез и про построение доверительных интервалов .
Уровень надежности
Уровень доверия (этот термин более распространен в отечественной литературе, чем Уровень надежности ) — означает вероятность того, что доверительный интервал содержит истинное значение оцениваемого параметра распределения.
Уровень доверия равен 1-α, где α – уровень значимости .
Термин Уровень надежности имеет синонимы: уровень доверия, коэффициент доверия, доверительный уровень и доверительная вероятность (англ. Confidence Level , Confidence Coefficient ).
В математической статистике обычно используют значения уровня доверия 90%; 95%; 99%, реже 99,9% и т.д.
Например, Уровень доверия 95% означает, что событие, вероятность которого 1-0,95=5% исследователь считать маловероятным или невозможным. Разумеется, выбор уровня доверия полностью зависит от исследователя. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки.
Примечание : Стоит отметить, что математически не корректно говорить, что Уровень доверия является вероятностью, того что оцениваемый параметр распределения принадлежит доверительному интервалу , вычисленному на основе выборки . Поскольку, считается, что в математической статистике отсутствуют априорные сведения о параметре распределения. Математически правильно говорить, что доверительный интервал , с вероятностью равной Уровню доверия, накроет истинное значение оцениваемого параметра распределения.
Уровень надежности в MS EXCEL
В MS EXCEL Уровень надежности упоминается в надстройке Пакет анализа . После вызова надстройки, в диалоговом окне необходимо выбрать инструмент Описательная статистика .
После нажатия кнопки ОК будет выведено другое диалоговое окно.
В этом окне задается Уровень надежности, т.е.значениевероятности в процентах. После нажатия кнопки ОК в выходном интервале выводится значение равное половине ширины доверительного интервала . Этот доверительный интервал используется для оценки среднего значения распределения, когда дисперсия не известна (подробнее см. статью про доверительный интервал ).
Необходимо учитывать, что данный доверительный интервал рассчитывается при условии, что выборка берется из нормального распределения . Но, на практике обычно принимается, что при достаточно большой выборке (n>30), доверительный интервал будет построен приблизительно правильно и для распределения, не являющегося нормальным (если при этом это распределение не будет иметь сильной асимметрии ).
Примечание : Понять, что в диалоговом окне речь идет именно об оценке среднего значения распределения , достаточно сложно. Хотя в английской версии диалогового окна это указано прямо: Confidence Level for Mean .
Если Уровень надежности задан 95%, то надстройка Пакет анализа использует следующую формулу (выводится не сама формула, а лишь ее результат):
=СТАНДОТКЛОН.В(Выборка)/КОРЕНЬ(СЧЁТ(Выборка)) *СТЬЮДЕНТ.ОБР.2Х(1-0,95;СЧЁТ(Выборка)-1)
или эквивалентную ей
=СТАНДОТКЛОН.В(Выборка)/КОРЕНЬ(СЧЁТ(Выборка)) *СТЬЮДЕНТ.ОБР((1+0,95)/2;СЧЁТ(Выборка)-1)
или
=ДОВЕРИТ.СТЬЮДЕНТ(1-0,95; СТАНДОТКЛОН.В(Выборка); СЧЁТ(Выборка))
Подробнее см. в статьях про доверительный интервал .
В данной статье мы приведем некоторые ключевые понятия статистики, актуальные при проведении медицинских исследований. Более подробно термины разбираются в соответствующих статьях.
Обращаем также внимание на специальный Статистический словарь медицинских терминов.
Вариация
Вероятность
Кумулятивная вероятность
Время до события
Выборка
Зависимые и независимые выборки
Гипотеза
Двусторонняя и односторонняя гипотезы
Дихотомические (бинарные данные)
Доверительный интервал
Достоверность, статистическая значимость (Р- уровень)
Исследование
Проспективное исследование
Ретроспективное исследование
Исход
Клиническая эпидемиология
Когорта
Контроль
Контроль исторический
Контроль параллельный
Корреляция
Коэффициент риска (KP)
Мета-анализ
Метод Каплана – Мейера (Множительные оценки Каплана – Мейера)
Модель Кокса
Непараметрические методы статистики
Признак (переменная)
Рандомизация
Риск
Скользящий экзамен
Событие
Стратификация
Таблица сопряженности
Критерий хи-квадрат для таблиц сопряженности
Шанс
Отношение шансов
Вариация
Определение. Степень рассеяния данных (значений признака) по области значений
Вероятность
Определение. Вероятность(probability) – степень возможности проявления какого – либо определённого события в тех или иных условиях.
Пример. Поясним определение термина на предложении «Вероятность выздоровления при применении лекарственного препарата Aримидекс равна 70%». Событием является «выздоровление больного», условием «больной принимает Аримидекс», степенью возможности – 70% (грубо говоря, из 100 человек, принимающих Аримидекс, выздоравливают 70).
Кумулятивная вероятность
Определение. Кумулятивная вероятность выживания (Cumulative Probability of surviving) в момент времени t – это то же самое, что доля выживших пациентов к этому моменту времени.
Пример. Если говорится, что кумулятивная вероятность выживания после проведения пятилетнего курса лечения равна 0.7, то это значит, что из рассматриваемой группы пациентов в живых осталось 70% от начального количества, а 30% умерло. Другими словами, из каждой сотни человек 30 умерло в течение первых 5 лет.
Время до события
Определение. Время до события – это время, выраженное в некоторых единицах, прошедшее с некоторого начального момента времени до наступления некоторого события.
Пояснение. В качестве единиц времени в медицинских исследованиях выступают дни, месяцы и годы.
Типичные примеры начальных моментов времени:
-
начало наблюдения за пациентом
-
проведение хирургического лечения
Типичные примеры рассматриваемых событий:
-
прогрессирование болезни
-
возникновение рецидива
-
смерть пациента
Выборка
Определение. Часть популяции, полученная путем отбора.
По результатам анализа выборки делают выводы о всей популяции, что правомерно только в случае, если отбор был случайным. Поскольку случайный отбор из популяции осуществить практически невозможно, следует стремиться к тому, чтобы выборка была по крайней мере репрезентативна по отношению к популяции.
Зависимые и независимые выборки
Определение. Выборки, в которые объекты исследования набирались независимо друг от друга. Альтернатива независимым выборкам – зависимые (связные, парные) выборки.
Гипотеза
Двусторонняя и односторонняя гипотезы
Сначала поясним применение термина гипотеза в статистике.
Цель большинства исследований — проверка истинности некоторого утверждения. Целью тестирования лекарственных препараторов чаще всего является проверка гипотезы, что одно лекарство эффективнее другого (например, Аримидекс эффективнее Тамоксифена).
Для предания строгости исследования, проверяемое утверждение выражают математически. Например, если А – это количество лет, которое проживёт пациент, принимающий Аримидекс, а Т –это количество лет, которое проживёт пациент, принимающий Тамоксифен, то проверяемую гипотезу можно записать как А>Т.
Определение. Гипотеза называется двусторонней (2-sided), если она состоит в равенстве двух величин.
Пример двусторонней гипотезы: A=T.
Определение. Гипотеза называется односторонней (1-sided),если она состоит в неравенстве двух величин.
Примеры односторонних гипотез:
Дихотомические (бинарные) данные
Определение. Данные, выражаемые только двумя допустимыми альтернативными значениями
Пример: Пациент «здоров» — «болен». Отек «есть» — «нет».
Доверительный интервал
Определение. Доверительный интервал (confidence interval) для некоторой величины — это диапазон вокруг значения величины, в котором находится истинное значение этой величины (с определенным уровнем доверия).
Пример. Пусть исследуемой величиной является количество пациентов в год. В среднем их количество равно 500, а 95% -доверительный интервал – (350, 900). Это означает, что, скорее всего (с вероятностью 95%), в течение года в клинику обратятся не менее 350 и не более 900 человек.
Обозначение. Очень часто используются сокращение: ДИ 95 % (CI 95%) – это доверительный интервал с уровнем доверия 95%.
Достоверность, статистическая значимость (P – уровень)
Определение. Статистическая значимость результата – это мера уверенности в его «истинности».
Любое исследование проходит на основе лишь части объектов. Исследование эффективности лекарственного препарата проводится на основе не вообще всех больных на планете, а лишь некоторой группы пациентов (провести анализ на основе всех больных просто невозможно).
Предположим, что в результате анализа был сделан некоторый вывод (например, использование в качестве адекватной терапии препарата Аримидекс в 2 раза эффективнее, чем препарата Тамоксифен).
Вопрос, который необходимо при этом задавать: «Насколько можно доверять этому результату?».
Представьте, что мы проводили исследование на основе только двух пациентов. Конечно же, в этом случае к результатам нужно относиться с опасением. Если же были обследовано большое количество больных (численное значение «большого количества» зависит от ситуации), то сделанным выводам уже можно доверять.
Так вот, степень доверия и определяется значением p-уровня (p-value).
Более высокий p- уровень соответствует более низкому уровню доверия к результатам, полученным при анализе выборки. Например, p- уровень, равный 0.05 (5%) показывает, что сделанный при анализе некоторой группы вывод является лишь случайной особенностью этих объектов с вероятностью только 5%.
Другими словами, с очень большой вероятностью (95%) вывод можно распространить на все объекты.
Исследование
Проспективное исследование – это исследование, в котором выборки выделяются на основе исходного фактора, а в выборках анализируется некоторый результирующий фактор.
Ретроспективное исследование – это исследование, в котором выборки выделяются на основе результирующего фактора, а в выборках анализируется некоторый исходный фактор.
Пример. Исходный фактор – беременная женщина моложе/старше 20 лет. Результирующий фактор — ребёнок легче/тяжелее 2,5 кг . Анализируем, зависит ли вес ребёнка от возраста матери.
Если мы набираем 2 выборки, в одной – матери моложе 20 лет, в другой – старше, а затем анализируем массу детей в каждой группе, то это проспективное исследование.
Если мы набираем 2 выборки, в одной – матери, родившие детей легче 2,5 кг, в другой – тяжелее, а затем анализируем возраст матерей в каждой группе, то это ретроспективное исследование (естественно, такое исследование можно провести, только когда опыт закончен, т.е. все дети родились).
Исход
Определение. Клинически значимое явление, лабораторный показатель или признак, который служит объектом интереса исследователя. При проведении клинических испытаний исходы служат критериями оценки эффективности лечебного или профилактического воздействия.
Клиническая эпидемиология
Определение. Наука, позволяющая осуществлять прогнозирование того или иного исхода для каждого конкретного больного на основании изучения клинического течения болезни в аналогичных случаях с использованием строгих научных методов изучения больных для обеспечения точности прогнозов.
Когорта
Определение. Группа участников исследования, объединенных каким-либо общим признаком в момент ее формирования и исследуемых на протяжении длительного периода времени.
Контроль
Контроль исторический
Определение. Контрольная группа, сформированная и обследованная в период, предшествующий исследованию.
Контроль параллельный
Определение. Контрольная группа, формируемая одновременно с формированием основной группы.
Корреляция
Определение. Статистическая связь двух признаков (количественных или порядковых), показывающая, что большему значению одного признака в определенной части случаев соответствует большее – в случае положительной (прямой) корреляции – значение другого признака или меньшее значение – в случае отрицательной (обратной) корреляции.
Пример. Между уровнем тромбоцитов и лейкоцитов в крови пациента обнаружена значимая корреляция. Коэффициент корреляции равен 0,76.
Коэффициент риска (КР)
Определение. Коэффициент риска (hazard ratio) – это отношение вероятности наступления некоторого («нехорошего») события для первой группы объектов к вероятности наступления этого же события для второй группы объектов.
Пример. Если вероятность появления рака лёгких у некурящих равна 20%, а у курильщиков – 100%, то КР будет равен одной пятой. В этом примере первой группой объектов являются некурящие люди, второй группой – курящие, а в качестве «нехорошего» события рассматривается возникновение рака лёгких.
Интерпретация значения величины. Очевидно, что:
1) если КР=1, то вероятность наступления события в группах одинаковая
2) если КР>1, то событие чаще происходит с объектами из первой группы, чем из второй
3) если КР<1, то событие чаще происходит с объектами из второй группы, чем из первой
Мета-анализ
Определение. Статистический анализ, обобщающий результаты нескольких исследований, исследующих одну и ту же проблему (обычно эффективность методов лечения, профилактики, диагностики). Объединение исследований обеспечивает большую выборку для анализа и большую статистическую мощность объединяемых исследований. Используется для повышения доказательности или уверенности в заключении об эффективности исследуемого метода.
Метод Каплана – Мейера (Множительные оценки Каплана – Мейера)
Этот метод был придуман статистиками Е.Л.Капланом и Полем Мейером.
Метод используется для вычисления различных величин, связанных с временем наблюдения за пациентом. Примеры таких величин:
-
вероятность выздоровления в течении одного года при применении лекарственного препарата
-
шанс возникновения рецидива после операции в течении трёх лет после операции
-
кумулятивная вероятность выживания в течение пяти лет среди пациентов с раком простаты при ампутации органа
Поясним преимущества использования метода Каплана — Мейера.
Значение величин при «обычном» анализе (не использующем метод Каплана-Мейера) рассчитываются на основе разбиения рассматриваемого временного интервала на промежутки.
Например, если мы исследуем вероятность смерти пациента в течение 5 лет, то временной интервал может быть разделён как на 5 частей (менее 1 года, 1-2 года, 2-3 года, 3-4 года, 4-5 лет), так и на 10 (по полгода каждый), или на другое количество интервалов. Результаты же при разных разбиениях получатся разные.
Выбор наиболее подходящего разбиения – непростая задача.
Оценки значений величин, полученных по методу Каплана- Мейера не зависят от разбиения времени наблюдения на интервалы, а зависят только от времени жизни каждого отдельного пациента.
Поэтому исследователю проще проводить анализ, да и результаты нередко оказываются качественней результатов «обычного» анализа.
Кривая Каплана –Мейера (Kaplan – Meier curve)– это график кривой выживаемости, полученной по методу Каплана-Мейера.
Модель Кокса
Эта модель была придумана сэром Дэвидом Роксби Коксом (р.1924), известным английским статистиком, автором более 300 статей и книг.
Модель Кокса используется в ситуациях, когда исследуемые при анализе выживаемости величины зависят от функций времени. Например, вероятность возникновения рецидива через t лет (t=1,2,…), может зависеть от логарифма времени log(t).
Важным достоинством метода, предложенного Коксом, является применимость этого метода в большом количестве ситуаций (модель не накладывает жестких ограничений на природу или форму распределения вероятностей).
На основе модели Кокса можно проводить анализ (называемый анализом Кокса (Cox analysis)), результатом проведения которого является значение коэффициента риска и доверительного интервала для коэффициента риска.
Непараметрические методы статистики
Определение. Класс статистических методов, которые используются главным образом для анализа количественных данных, не образующих нормальное распределение, а также для анализа качественных данных.
Пример. Для выявления значимости различий систолического давления пациентов в зависимости от типа лечения воспользуемся непараметрическим критерием Манна-Уитни.
Признак (переменная)
Определение. Характеристика объекта исследования (наблюдения). Различают качественные и количественные признаки.
Рандомизация
Определение. Способ случайного распределения объектов исследования в основную и контрольную группы с использованием специальных средств (таблиц или счетчика случайных чисел, подбрасывания монеты и других способов случайного назначения номера группы включаемому наблюдению). С помощью рандомизации сводятся к минимуму различия между группами по известным и неизвестным признакам, потенциально влияющим на изучаемый исход.
Риск
Атрибутивный – дополнительный риск возникновения неблагоприятного исхода (например, заболевания) в связи с наличием определенной характеристики (фактора риска) у объекта исследования. Это часть риска развития болезни, которая связана с данным фактором риска, объясняется им и может быть устранена, если этот фактор риска устранить.
Относительный риск – отношение риска возникновения неблагоприятного состояния в одной группе к риску этого состояния в другой группе. Используется в проспективных и наблюдательных исследованиях, когда группы формируются заранее, а возникновение исследуемого состояния ещё не произошло.
Скользящий экзамен
Определение. Метод проверки устойчивости, надежности, работоспособности (валидности) статистической модели путем поочередного удаления наблюдений и пересчета модели. Чем более сходны полученные модели, тем более устойчива, надежна модель.
Событие
Определение. Клинический исход, наблюдаемый в исследовании, например возникновение осложнения, рецидива, наступление выздоровления, смерти.
Стратификация
Определение. Метод формирования выборки, при котором совокупность всех участников, соответствующих критериям включения в исследование, сначала разделяется на группы (страты) на основе одной или нескольких характеристик (обычно пола, возраста), потенциально влияющих на изучаемый исход, а затем из каждой из этих групп (страт) независимо проводится набор участников в экспериментальную и контрольную группы. Это позволяет исследователю соблюдать баланс важных характеристик между экспериментальной и контрольной группами.
Таблица сопряженности
Определение. Таблица абсолютных частот (количества) наблюдений, столбцы которой соответствуют значениям одного признака, а строки – значениям другого признака (в случае двумерной таблицы сопряженности). Значения абсолютных частот располагаются в клетках на пересечении рядов и колонок.
Приведем пример таблицы сопряженности. Операция на аневризме была сделана 194 пациентам. Известен показатель выраженности отека у пациентов перед операцией.
Отек\ Исход |
Выжил |
Умер |
|
---|---|---|---|
нет отека | 20 | 6 | 26 |
умеренный отек | 27 | 15 | 42 |
выраженный отек | 8 | 21 | 29 |
mj | 55 | 42 | 194 |
Таким образом, из 26 пациентов, не имеющих отека, после операции выжило 20 пациентов, умерло — 6 пациентов. Из 42 пациентов, имеющих умеренный отек выжило 27 пациентов, умерло — 15 и т.д.
Критерий хи-квадрат для таблиц сопряженности
Для определения значимости (достоверности) различий одного признака в зависимости от другого (например, исхода операции в зависимости от выраженности отека) применяется критерий хи-квадрат для таблиц сопряженности:
Шанс
Пусть вероятность некоторого события равна p. Тогда вероятность того, что событие не произойдёт равна 1-p.
Например, если вероятность того, что больной останется жив спустя пять лет равна 0.8 (80%), то вероятность того, что он за этот временной промежуток умрёт равна 0.2 (20%).
Определение. Шанс – это отношение вероятности того, что события произойдёт к вероятности того, что событие не произойдёт.
Пример. В нашем примере (про больного) шанс равен 4, так как 0.8/0.2=4
Таким образом, вероятность выздоровления в 4 раза больше вероятности смерти.
Интерпретация значения величины.
1) Если Шанс=1, то вероятность наступления события равна вероятности того, что событие не произойдёт;
2) если Шанс >1, то вероятность наступления события больше вероятности того, что событие не произойдёт;
3) если Шанс <1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.
Отношение шансов
Определение. Отношение шансов (odds ratio) – это отношение шансов для первой группы объектов к отношению шансов для второй группы объектов.
Пример. Допустим, что некоторое лечение проходят и мужчины, и женщины.
Вероятность того, что больной мужского пола останется жив спустя пять лет равна 0.6 (60%); вероятность того, что он за этот временной промежуток умрёт равна 0.4 (40%).
Аналогичные вероятности для женщин равны 0.8 и 0.2.
Отношение шансов в этом примере равно
Интерпретация значения величины.
1) Если отношение шансов =1, то шанс для первой группы равен шансу для второй группы
2) Если отношение шансов >1, то шанс для первой группы больше шанса для второй группы
3) Если отношение шансов <1, то шанс для первой группы меньше шанса для второй группы
В начало
Ничего сложного в p-value нет, но, удивительно — большинство профессиональных биологов и биоинформатиков, с которыми мне пришлось общаться, не могли объяснить, что это такое — мне просто говорили: «ой, я не помню, но чем меньше — тем лучше». У меня одинажды был конкретный вопрос по определённой задаче, где мне надо было обрезать данные по p-value — поэтому мне нужно было знать, на какой выборке эта величина считалась и по какому значению фильтровать результат. Факт того, что учёные люди вообще не хотели знать, как оценивать качество результата без тупого обрезания по зараннее заданному значению, смысл которого они не понимали, меня довольно впечатлил.
А альтернативно-одарённые гмо-шные выбегалы так и вообще зело любят бросать на публику заумные доводы, а публика, сводя глаза в кучку на них, тут же и теряет дар думать головой. Один из любимых коньков выбегал — p-value, которое они вставляют где только можно, чтобы произвести впечатление — видимо, это одно из немногих слов, которые они смогли усвоить на лекциях по статистике.
Обычно для неподготовленного читателя оные журнализды от пост-науки™ сообщают два сколь неверных, столь и неграмотных утверждения:
- если p-value меньше данного числа (обычно берётся 0.05) — то эксперимент доказан, т.е. результат на измеряемой группе данных отличается от контрольной группы,
- если p-value больше данного значения, которое они ещё называют значимым (тоже обычно 0.05) — то два результата (контрольной и измеряемой групп), дескать, отличаются друг от друга мало, а потому эксперимент неудачен, неверен, ату его!
То, что в интерпретации данных этого эксперимента p-value не используется, неадекватно для использования или используется другое его значение для оценки отличия данных от контрольных, выбегал не озадачивает. Если p-value не приведено (и неадекватно для оценки данных на самом деле), то они сами кидаются считать его, будучи при том ни в зуб ногой в данных, и тут же показывают публике — «смотрите, какой я умный, а какой экспериментатор дурак!» На деле дурак дураком то как раз оказывается выбегало.
Итак, что же такое p-value и почему оба эти утверждения выше вообще говоря неверны?
Допустим у вас есть игральная кость (кубик с точками) и вы точно знаете, что она не подпилена — т.е. выпадение любой стороны равновероятно. Вы загадываете всегда на пятёрку и дальше считаете, сколько раз она у вас выпадает при, скажем, 60 подбрасываниях — назовём 60кратное подбрасывание кубика «испытанием», а однократное — «киданием».
Вы знаете, что вероятность выпадания 5ки = 1/6. Но это не значит, что из 60 подбрасываний у вас обязательно 10 раз выпадет 5ка. Если вы проведёте 1000 таких испытаний, т.е. 1000 раз повторите кидание кубика по 60 раз — всего 60000 киданий, то у вас всякий раз в каждом испытании будет выпадать какое-то число 5к, кучкующееся около 10. Т.е. в какой-то раз будет выпадать 10 раз по 5ке, в другой — 9, в ещё какой-то раз 11 или 12 и т.д. Но случаи, когда у вас из 60 подбрасываний 5ка выпадет всего 5 или 4 раза, ещё меньше, или, наоборот, выпадет, скажем, 15 и более раз (не говоря уж о том, что 60 раз по 5ке из 60 подбрасываний будет совсем невероятным результатом) будут явно куда менее частые, чем когда она будет выпадать 8, 9, 10, 11 или 12 раз из 60. Ведь кубик у нас честный, не подпиленный.
Если вы далее посчитаете сколько всего из 1000 испытаний у вас выпадет по 5ке из 60 киданий и построите график, где по оси Х отложите число выпаданий за испытание (от 1 до 60), а по Y — сколько всего раз из 1000 испытаний у вас случилось данное число выпаданий из 60 киданий, то картинка будет примерно такая, как показана справа.
Т.е., если 8 раз по 5ке из 60 киданий выпало всего 142 раза из 1000 испытаний, то по оси Y напротив 8 по Х вы откладываете 142, а если 10 раз по 5ке из 60 киданий выпало 179 раз, то оси Y откладываете 179 соответственно — понятно, что здесь у нас будет максимум. График сей нарисован для иллюстрации от балды (даже хуже — сгружен с сети и подрисован, чтобы больше соответствовать данному примеру, по Х в реальности там будет уход в ноль, а не в 30), но его общий вид соответствует действительности (и да, это не гауссово, т.е. нормальное распределение). Понятно, что мне недосуг 60000 раз кидать кубик, но общая картина будет примерно такая. Также я не занимаюсь здесь точным подсчётом всех вероятностей — в скольких вероятнее всего случаях из 1000 испытаний 5ка выпадет данное число раз из 60 киданий. Цифры взяты на глаз, интуитивно подходящие и близкие к реальным значениям.
Теперь возьмём неизвестный нам кубик, у которого, возможно, какая-то из граней подпилена, или даже не одна грань. Или с кубиком всё в порядке — но он нам неизвестен, мы должны его проверить. Т.е., мы должны узнать, насколько этот кубик отличается от нашей нуль-гипотезы (что выпадение всех его граней равновероятно и равно 1/6).
Проведём с ним точно такое же число испытаний. Для честного кубика мы знаем, что из 1000 испытаний по 60 подбрасываний мы только 42 раза получили тот случай, когда из 60 подбрасываний у нас выпала 5ка аж 21 раз (синяя полосочка) — это довольно много (больше, чем 1/3 тогда как средняя вероятность должна быть около 1/6) и маловероятно. Вероятность этого события 42/1000=0.042.
Так вот p-value — это вероятность получить данный конкретный результат (или ещё более крайний результат) при условии того, что кубик честный (нуль-гипотеза верна).
Т.е. вероятность получить из 1000 испытаний по 60 киданий такой случай, чтобы в 42 случаях из 1000 данная грань выпала 21 раз в каждом из 60 киданий равна 0.042. А т.к. мы ещё учитываем и крайние результаты (все те случаи, когда данная грань выпала больше чем 21 раз из 60 киданий), то такая вероятность будет немножко больше — скажем, 0.047 (мы складываем вероятности тут для всех выпаданий >21). Вот эта цифра и есть p-value.
Если вы кидаете свой кубик и вдруг обнаруживаете, что у вас из 1000 испытаний в 53 случаях данная грань выпала, скажем 18 раз, то p-value — для данного результата будет другое (больше 0.05, красная полосочка) — но это не значит, что ваш кубик пиленный. Просто выбор результата другой, более ожидаемый.
И обратно. Если ваш кубик пиленный, то для 21 раза выпадания данной грани из 60 киданий у вас будет большая вероятность — скажем, у вас будет аж 70 таких случаев из 1000, p=0.07. Тем не менее для большего числа выпаданий (скажем, 40) из 60 киданий у вас опять будет «хорошее», меньшее значение p-value (даже для пиленного кубика это маловероятно — если уж слишком сильно подпиливать кубик, то это будет слишком заметно) — но «хорошее» значение p-value (меньше 0.05), опять же, не доказывает, что ваш кубик честный.
NB. Мы прежде всего интересуемся теми результатами, которые наименее ожидаемы. Заранее ожидаемые результаты нам неинтересны для проверки кубика: при пиленном кубике отклонение выпадения максимума среднего значения вероятностей от 10 (60*1/6) мы заранее всё равно не знаем, потому что мы не знаем точное значение для него — очевидно, что распределение уже должно быть заметно другим, точнее, общий вид его будет похож на контрольный, тип этого распределения будет тот же (у нас всё тот же тип испытаний и объекта испытаний), но максимум для выбранной грани у пиленного кубика уже будет не в 10, а в другом месте.
Итого.
Чтобы определить отличие данного результата от результата контрольной выборки (правильный кубик) — действительно ли есть отклонение от неё, надо
- хорошо понимать какой именно результат берётся из контрольной выборки, а какой из экспериментальной для сравнения,
- соответствуют ли они друг другу (корректно ли сравнивать именно эти выбранные результаты),
- достаточно ли проведено испытаний для корректной оценки p-value (очевидно теперь, что чем меньше испытаний, тем менее смысла в использовании p-value для оценки того, насколько результаты расходятся от контрольной выборки),
- а главное — каково распределение всех результатов в выборке и верно ли это распределение нами изначально выбрано. Вообще говоря оно необязательно нормальное, как у распределения результатов между 0 и 1 (точно такой же пример можно привести с монеткой, но там распределение будет нормальное — см. второй график).
Мною специально выбран такой пример, когда распределение результатов ни разу не нормальное. И это совсем не редкость.
А теперь оцените каково поле для жульничества оных выбегал.
Так что когда вам кто-то начинает что-то втирать про p-value — задумывайтесь как следует и проверяйте данные на все четыре пункта, указанных выше.Tags: p-value, science