В статистике величину называют статисти́чески зна́чимой, если мала вероятность её случайного возникновения или еще более крайних величин. Здесь под крайностью понимается степень отклонения тестовой статистики от нуль-гипотезы. Разница называется «статистически значимой», если появление имеющихся данных (или еще более крайних данных) было бы маловероятно, если предположить, что эта разница отсутствует; это выражение не означает, что данная разница должна быть велика, важна, или значима в общем смысле этого слова.
Общая картина проблемы такова: дана выборка из некоторого пространства элементарных событий (например, список пациентов, прошедших обследование на некоторую болезнь) и, возможно, значения на этой выборке некоторых переменных (функций от , например -- возраст пациента, интенсивность курения, количество часов физических упражнений и т.п.). Вероятностное распределение на не известно, а, наоборот, является здесь главным объектом поиска.
Различные гипотезы соответствуют различным возможным вероятностным распределениям на . Точный смысл термина "гипотеза" -- набор утверждений, который содержит полное описание некоторого вероятностного распределения. Проверка гипотезы (задающей вероятностное распределение ) состоит в следующем. Bыбирается событие (называемое статистическим критерием), которое (по каким-либо соображениям) "почти несовместимо" с гипотезой в том смысле, что вероятность события не превышает какого-то малого (по сравнению с единицей) числа , называемого уровнем значимости: Затем проводится опыт. Если событие происходит, то гипотеза отвергается (говорят, что наблюдается отклонение от гипотезы на уровне значимости ). В противном случае, гипотеза не отвергается (однако никакой метод статистики, ни даже науки в целом, не может "окончательно доказать" гипотезу).
Таким образом, уровень значимости теста — вероятность отклонить гипотезу , если на самом деле она верна (решение известное как ошибка первого рода, или ложноположительное решение).
Популярными уровнями значимости являются 10 %, 5 %, 1 %, и 0,1 %.
Различные значения α-уровня имеют свои достоинства и недостатки. Меньшие α-уровни дают бо́льшую уверенность в том, что уже установленная альтернативная гипотеза значима, но при этом есть больший риск не отвергнуть ложную нулевую гипотезу (ошибка второго рода, или «ложноотрицательное решение»), и таким образом меньшая статистическая мощность. Выбор α-уровня неизбежно требует компромисса между значимостью и мощностью, и следовательно между вероятностями ошибок первого и второго рода.
В отечественных научных работах часто употребляется неправильный термин «достоверность» вместо термина «статистическая значимость».[источник не указан 4792 дня]
При использовании тестов на статистическую значимость нужно иметь в виду, что тест вовсе не дает оснований для принятия гипотезы: [1].
См. также[]
- Ошибки первого и второго рода
- Мощность критерия
- Статистическая физика
Примечания[]
- ↑ Keith M. Bower and James A. Colton. Why We Don’t «Accept» the Null Hypothesis // American Society for Quality, Six Sigma Forum, July 2003.
Литература[]
В. Н. Тутубалин. Глава 1, параграф 7. // Теория вероятностей и случаных процессов. — 1992. (см. ISBN )
George Casella, Roger L. Berger. Hypothesis Testing // Statistical Inference. — Second Edition. — Pacific Grove, CA: Duxbury, 2002. — С. 397. — 660 с. — ISBN 0-534-24312-6. (см. ISBN )
Ссылки[]
|