Щодо p-значення s, мені цікаво, чому % та % здаються золотим стандартом . Чому б не інші значення, наприклад, % чи %?"statistical significance"
Чи є в цьому фундаментальна математична причина, чи це просто широко поширена конвенція?
Щодо p-значення s, мені цікаво, чому % та % здаються золотим стандартом . Чому б не інші значення, наприклад, % чи %?"statistical significance"
Чи є в цьому фундаментальна математична причина, чи це просто широко поширена конвенція?
Відповіді:
Якщо ви переглянете наведені нижче посилання, то у фоновому режимі ви знайдете досить багато варіацій, хоча є деякі загальні елементи.
Ці цифри принаймні частково базуються на коментарях Фішера, де він сказав
(при обговоренні рівня 1/20)
Зручно сприймати цю точку як межу, коли судити про те, чи слід відхилення вважати суттєвим чи ні. Відхилення, що перевищують удвічі більше стандартного відхилення, формально вважаються значними
Fisher, RA (1925) Статистичні методи для наукових працівників , с. 47
З іншого боку, він часом був ширшим:
Якщо кожен двадцять не здається достатньо високим шансом, ми можемо, якщо вважатимемо за краще, провести лінію на п’ятдесят (2-відсотковий бал) або на кожну сотню (1 відсотковий бал). Особисто письменник вважає за краще встановити низький рівень значущості на рівні 5 відсотків і повністю ігнорувати всі результати, які не зможуть досягти цього рівня. Науковий факт слід розглядати як експериментально встановлений лише у тому випадку, якщо правильно розроблений експеримент рідко не вдається надати цьому рівню значущості.
Fisher, RA (1926)
Розташування польових експериментів . Журнал Міністерства сільського господарства, с. 504
Фішер також використовував 5% для однієї зі своїх книжок, але більшість інших таблиць мали більшу різноманітність рівнів значущості
Деякі його коментарі пропонують більш чи менш суворі (тобто нижчий або вищий рівень альфа) у різних ситуаціях.
Таке обговорення вище призводило до тенденції до створення таблиць з фокусом 5% та 1% рівнів значущості (а іноді й з іншими, наприклад, 10%, 2% та 0,5%) для того, щоб використовувати будь-які інші «стандартні» значення для використання.
Однак у цьому документі Каулз і Девіс припускають, що використання 5% - або щонайменше щось близьке до нього - йде далеко далі від коментаря Фішера.
Коротше кажучи, наше використання 5% (і в меншій мірі 1%) - це майже умовна умова, хоча, очевидно, багато людей, здається, відчувають, що для багатьох проблем вони знаходяться в потрібному вигляді.
Немає жодної причини, щоб взагалі не було використано конкретне значення.
Додаткові посилання:
Даллал, Джерард Е. (2012). Маленький посібник зі статистичної практики. - Чому 0,05?
Стіглер, Стівен (грудень 2008 р.). "Фішер та рівень 5%". Шанс 21 (4): 12. тут
(Між ними ви отримуєте неабияку передісторію - схоже, що між ними є хороший випадок, коли рівень значущості мислення принаймні в загальному 5% - скажімо, від 2% до 10% - був більш-менш у повітря на деякий час.)
Я повинен дати невідповідь (те саме, що тут ):
"... безумовно, Бог любить .06 майже так само, як і .05. Чи можна сумніватися, що Бог розглядає силу доказів за або проти нуля як досить безперервну функцію величини p?" (с.1277)
Роснов, Р.Л., Розенталь, Р. (1989). Статистичні процедури та обґрунтування знань у психологічній науці. Американський психолог , 44 (10), 1276-1284. pdf
Документ містить ще кілька обговорень з цього питання.
Я вважаю, що існує певна психологія на основі 5%. Треба сказати, що я не пам’ятаю, де я взяв це, але ось вправу, яку я робив із кожним класом введення в статистику нижчої категорії.
Уявіть, що незнайомець підходить до вас у паб і каже вам: "У мене є упереджена монета, яка виготовляє голови частіше, ніж хвости. Чи хотіли б ви придбати її у мене, щоб ви могли зробити ставку з приятелями і заробляти на цьому гроші?" Ви нерішуче погоджуєтесь поглянути і киньте монету, сказавши 10 разів. Питання : скільки разів доводиться висаджувати голови / хвости, щоб переконати вас у тому, що це упереджено?
Тоді я беру на себе руки: хто був би переконаний, що монета упереджена, якщо розкол 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Ну, перші два-три нікого не переконують, а останній переконує всіх; 2/8 та 1/9 переконали б більшість людей. Тепер, якщо подивитися на біноміальну таблицю, 2/8 становить 5,5%, а 1/9 - 1%. QED.
Якщо хтось зараз викладає курс з інтрограду, я б закликав вас також виконати цю вправу та розмістити свої результати як коментарі, щоб ми могли накопичити великий масив результатів метааналізу та опублікувати їх принаймні в американській Навчальний куточок статистиків . Не соромтеся змінювати та односторонні та двосторонні умови!
В іншій відповіді Glen_b цитує Фішера, який надає дискусію про те, чи слід змінювати ці магічні числа залежно від того, наскільки серйозна проблема, тому, будь ласка, не вдавайте її "Існує нове лікування лейкемії вашої сестри, але це може вилікувати її в 3 місяці або вбий її за 3 дні, тож давайте перекинемо трохи монет "- це виглядало б так само дурно, як сумнозвісний комікс xkcd, що навіть Ендрю Гелману це не дуже подобалось.
Говорячи про монети та Гельман, TAS мав дуже цікавий документ від Гельмана та Нолана під назвою "Ви можете завантажити штамп, але ви не можете змістити монету" , висуваючи аргумент, що монета перекинулася в повітря або крутилася на стільниця, витратить приблизно половину часу головою вгору, а інший час хвостиком, тому важко придумати фізичний механізм, щоб серйозно змістити монету. (Це явно було дослідження, яке проводиться в пабі, коли вони експериментували з ковпачками для пляшок пива.) З іншого боку, завантажувати штамп - це досить просто, і я дав студентам вправу в цьому із приблизно 1 см / половину -в дюймових дерев'яних кубиках з місцевого магазину хобі та наждачного паперу, щоб просити їх завантажити матрицю, і довести мені, що це завантажено - що було вправою в тесті Пірсона на пропорції та його потужність.
5%, схоже, Фішером округлили від 4,56%, що відповідає "хвостовим ділянкам кривої понад середнього плюс три або мінус три ймовірні помилки" (Hurlbert & Lombardi, 2009).
Іншим елементом історії, здається, є відтворення таблиць з критичними властями (Pearson et al., 1990; Lehmann, 1993). Фішер не отримав дозволу Пірсона використовувати свої столи (ймовірно, через маркетинг Пірсона його власної публікації (Hurlbert & Lombardi, 2009) та проблематичність їх відносин.
Hurlbert, SH, & Lombardi, CM (2009, жовтень). Остаточний крах теоретичної бази рішень Неймана-Пірсона та підйом неофішерського народу. В Annales Zoologici Fennici (т. 46, № 5, с. 311–349). Фінське зоологічне та ботанічне видавництво
Lehmann, EL (1993). Теорії Фішера, Неймана-Пірсона тестування гіпотез: одна теорія чи дві ?. Журнал Американської статистичної асоціації, 88 (424), 1242-1249.
Pearson, ES, Gosset, WS, Plackett, RL, & Barnard, GA (1990). Учень: статистична біографія Вільяма Сілі Госсета. Oxford University Press, США.
Дивіться також: Gigerenzer, G. (2004). Бездумна статистика. Журнал Socio-Economics, 33 (5), 587-606.
Hubbard, R., & Lindsay, RM (2008). Чому значення Р не є корисною мірою доказів при тестуванні на статистичну значимість Теорія та психологія, 18 (1), 69-88.
Мені здається, відповідь більше в теорії ігор дослідження, ніж у статистиці. Якщо 1% і 5% згоріли в загальній свідомості, це означає, що дослідники не можуть вільно вибирати рівні значущості, що відповідають їх схильності. Скажімо, ми побачили документ із значенням p .055, і де рівень значущості був встановлений на рівні 6% - запитання будуть задані. 1% і 5% - це форма надійного зобов'язання.
Моя особиста гіпотеза полягає в тому, що 0,05 (або 1 з 20) асоціюється зі значенням at / z (дуже близьким до) 2. Використання 2 приємно, тому що це дуже легко помітити, якщо ваш результат є статистично значущим. Немає інших злиття круглих чисел.
Єдине правильне число - .04284731
... що є легковажною відповіддю, покликаної означати, що вибір .05 по суті є довільним. Зазвичай я просто повідомляю про значення p, а не про те, що значення p більше або менше.
«Значущість» - це суцільна змінна величина, і, на мою думку, дискретизація її часто приносить більше шкоди, ніж користі. Я маю на увазі, якщо p = .13, ви маєте більше впевненості, ніж якщо p = .21 і менше, ніж якщо p = .003
Це область тестування гіпотез, яка мене завжди захоплювала. Зокрема, тому, що одного дня хтось визначився з якоюсь довільною цифрою, яка дихотомізувала процедуру тестування, і відтоді люди рідко ставлять під сумнів це.
Я пам’ятаю, що лектор говорив нам не надто вірити в тест Стайгера та Стока інструментальних змінних (де F-stat повинен бути вище 10 на першому етапі регресії, щоб уникнути слабких проблем з інструментом), оскільки число 10 було повністю довільний вибір. Я пам’ятаю, що говорив "Але хіба це не те, що ми робимо при регулярному тестуванні гіпотез ?????"
Чому 1 і 5? Тому що вони почувають себе правильно.
Я впевнений, що існують дослідження емоційної цінності та когнітивної виразності конкретних чисел, але ми можемо зрозуміти вибір 1 і 5, не вдаючись до досліджень.
Люди, які створили сьогоднішню статистику, народилися, виросли і живуть у десятковому світі. Звичайно, існують недесяткові системи підрахунку, і підрахунок до дванадцяти за допомогою фалангів можливо і вже зроблено, але це не очевидно так само, як використання пальців (які тому називаються "цифрами", як числа ). І хоча ви (і Фішер), можливо, знаєте про недесяткові системи підрахунку, десяткова система є і була переважаючою системою підрахунку вашого (і світу Фішера) за останні сто років.
Але чому числа п'ять і одне особливе? Тому що обидва - це найбільш природно відомі відділи основної десятки: один палець, одна рука (або: половина).
Вам навіть не потрібно йти так далеко, щоб концептуалізувати дроби, щоб отримати від десяти до одного і п'яти. Той просто там, як і палець просто там. І навпіл щось - це операція, набагато простіша, ніж поділ її на будь-яку іншу пропорцію. Розрізати що-небудь на дві частини не потрібно думати, тоді як розділити їх на три-чотири вже досить складно.
Більшість поточних валютних систем мають монети та банкноти зі значеннями, такими як 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Деякі валютні системи не мають 2, 20 та 200, але майже всі мають такі початку в 1 і 5. У той же час більшість валютних систем не мають монети чи банкнот, які починаються в 3, 4, 6, 7, 8 або 9. Цікаво, чи не так? Але чому це так?
Тому що вам завжди потрібно або десять із 1-х, або два з 5-х (або п’ять із 2-х), щоб прийти до наступного більшого замовлення. Розрахувати з грошима дуже просто: разів десять чи подвійно. Всього два види операцій. Кожна наявна у вас монета - це половина або десята частина монети наступного замовлення. Ці числа множуються та складаються легко та добре.
Таким чином, 1 і 5 були глибоко вбудовані, починаючи з самого раннього дитинства, у Фішера і того, хто ще обрав рівні значущості як найпростіший, найпростіший, найосновніший поділ 10. Будь-яке інше число потребує аргументу для цього, тоді як ці номери просто є.
За відсутності об'єктивного способу розрахунку відповідного рівня значущості для кожного окремого набору даних, один та п’ять просто відчувають себе правильно.