Коли має сенс підхід Фішера "піти отримати більше даних"?


26

Цитуючи чудову відповідь Гунга

Нібито дослідник одного разу звернувся до Фішера з «незначними» результатами, запитавши його, що йому робити, і Фішер сказав: «Іди, отримай більше даних».

З точки зору Неймана-Пірсона, це кричуще хакерство, але чи є випадки використання, коли підхід Фішера "отримати більше даних" має сенс?p


10
Фішер (неодноразово) підкреслював важливість тиражування експериментів, і я вважаю, що це було його наміром тут (якщо припустити, що розмова відбулася). Звичайно, Фішер добре розумів би, що ви не можете перевірити їх значимість, а потім розширити свій початковий зразок, якби цього не отримали.
Glen_b -Встановіть Моніку

@Glen_b Я чув фразу "реплікація експериментів" раніше, але не зовсім зрозумів. Чи можете ви докладно? Скажіть, чи є десять повторень експерименту, розмір вибірки на 10 кращий, ніж одного експерименту, розмір вибірки якого 100?
nalzok

У дослідницькому дослідженні можуть бути прийнятними дані, отримані більше. У підтверджуючому дослідженні немає жодної позиції для отримання даних, які отримують більше.
користувач158565

5
Одне з моїх суперечливих поглядів на статистичну практику полягає в тому, що хоча важливо розглянути питання про помилкові позитиви, ми не повинні ставити збереження частоти помилок типу 1 на такий високий п’єдестал, що ми відмовляємося дізнаватися з даних, щоб зберегти тип 1 показник помилок.
Кліф АВ

Відповіді:


29

Партигма частолістської форми - це співвідношення поглядів Фішера та Неймана-Пірсона. Тільки при використанні одного підходу та іншої інтерпретації виникають проблеми.

Комусь здасться дивним, що збір більше даних є проблематичним, оскільки більше даних - це більше доказів. Дійсно, проблема полягає не в зборі більшої кількості даних, а у використанні значення p -значення для вирішення цього питання, коли це також є мірою інтересу. Збір додаткових даних на основі p -Value тільки p -hacking , якщо обчислити новий p -значення.

Якщо у вас недостатньо доказів для того, щоб зробити задовільний висновок щодо дослідницького питання, то, будь-ласка, займіться більшою кількістю даних. Однак, визнайте, що ви зараз пройшли стадію NHST свого дослідження, і зосередьтесь натомість на кількісному оцінці ефекту інтересу.


Цікава примітка полягає в тому, що байєси не страждають від цієї дилеми. Розглянемо як приклад:

  • Якщо частоліст укладає суттєву різницю, а потім переходить до тесту на еквівалентність, напевно, помилково позитивна норма зросла;
  • Байєсий може одночасно виражати інтервал найвищої щільності та область практичної еквівалентності різниці, а вночі спати так само.

В основному, скажіть, я хочу перевірити, чи середній показник сукупності А дорівнює населенню B. Спочатку я отримую деякі дані, проводжу тест на : "засоби рівні", і я його не відкидаю. У цьому випадку я не повинен проводити черговий тест на H 0 : "засоби НЕ рівні". Все, що я можу зробити, - це оцінити конфіденційні інтервали засобів, це правильно? Що робити, якщо між двома інтервалами не буде перекриття? H0H0
nalzok

6
"Це лише p-злом, якщо ви обчислите нове p-значення." Чи насправді це повністю не залежить від методу, що використовується для обчислення р-значення? Ігнорування послідовного аналізу та рішення зібрати більше даних призведе до неточного p-значення. Однак якщо ви включите правило рішення для збору більшої кількості даних для обчислення p-значення, то ви створите дійсне p-значення.
jsk

4
@jsk Я думаю, що менше, ніж згодом обчислені p-значення якимось чином недійсні, і більше, ніж ти використовуєш довільний та керований даними стандарт, щоб оцінити, коли експеримент "правильний", а дослідження цього проекту " зроблено ". Вирішивши , що все незначущі значення р неправильні, і збір даних , поки ви не отримаєте той , який є значним , а потім зупинити , тому що ви отримали «правильний» результат протилежний експериментальної науки.
Upper_Case-Stop завдаючи шкоди Моніці

1
@Upper_Case Я коментував дуже невеликий розділ публікації щодо p-злому, тому я включив цей розділ у лапки. Ви занадто багато читаєте мою заяву. Моя думка полягає в тому, що будь-яке правило рішення, яке використовується для вирішення збору більшої кількості даних, повинно бути включене в обчислення р-значення. Поки ви включаєте рішення, прийняті у розрахунок p-значення, ви все одно можете проводити дійсну NHST, якщо цього хочете. Це жодним чином не означає, що я виступаю за правило зупинення, яке говорить: "збирайте більше даних, поки не знайдете значного результату".
jsk

@jsk Ах, я розумію, що ти краще зараз. Дякую за роз’яснення.
Upper_Case-Stop завдаючи шкоди Моніці

10

З огляду на достатньо великий розмір вибірки, тест завжди покаже значні результати, якщо тільки справжній розмір ефекту не дорівнює рівно нулю, як обговорювалося тут . На практиці справжній розмір ефекту не дорівнює нулю, тому збір більшої кількості даних з часом зможе виявити найбільш незначні відмінності.

Обличкова відповідь Фішера (ІМО) була у відповідь на відносно тривіальне питання, яке, за його переконанням, суперечить «суттєву різницю» з «практично відповідною різницею».

Це було б рівнозначно досліднику, який прийшов до мене в офіс і запитав "Я зважив цю свинцеву вагу з позначкою" 25 грам ", і вона вимірювала 25,0 грама. Я вважаю, що це неправильно позначено, що мені робити?" На що я міг би відповісти: "Отримайте більш точну шкалу".

Я вважаю, що підхід «отримати більше інформації» є доцільним, якщо початковий тест є надзвичайно недостатнім для виявлення різниці, що є практично актуальною.


Справа в тому, що вам потрібно включити рішення, щоб отримати більше даних для обчислення p-значення.
jsk

@jsk, навіть якщо ви зміните p-значення, ви все одно можете зібрати більше даних для значного результату (хоча вам знадобиться ще більше даних).
Underminer

1
Я міг би бути яснішим. Я не впевнений, що саме ви маєте на увазі під «ви все одно можете зібрати більше даних, щоб знайти вагомий результат». Я вважаю, що нульова гіпотеза взагалі ніколи не відповідає дійсності, збір більшої кількості даних в кінцевому підсумку призведе до значного результату. Я просто хотів звернути увагу на той факт, що при обчисленні p-значення потрібно включити рішення про збір більшої кількості даних у розрахунок p-значення. Це означає, що правила прийняття рішення (про збір більшої кількості даних) повинні бути заздалегідь визначені перед початковим збором даних.
jsk

@jsk навіть при дуже консервативному методі коригування р-значення (наприклад, правильний Bonferroni, застосовний в пост-хок-аналізі), існує додатковий розмір вибірки, достатньо великий, щоб подолати виправлення. Сенс у тому, якщо ви надаєте мені метод коригування p-значення (вказаний перед початковим збором даних чи ні), справжня різниця між розподілом населення за групами, що цікавлять, і незначними попередніми результатами; і я можу надати вам достатньо великий розмір вибірки, який дасть вам значні результати. Отже, більше даних ЗАВЖДИ відповідь.
Underminer

7

Спасибі. Тут слід пам’ятати кілька речей:

  1. Цитата може бути апокрифною.
  2. Цілком розумно отримати більше / кращі дані або дані з іншого джерела (точніший масштаб, пор., Відповідь Underminer ; інша ситуація або елементи управління тощо) для другого дослідження (пор., Коментар @ Glen_b ) . Тобто, ви б не аналізували додаткові дані спільно з вихідними даними: скажімо, у вас було N = 10 з незначним результатом, ви можете зібрати ще одні дані N = 20 та проаналізувати їх поодинці (не тестуючи повних 30 разом ). Якщо цитата не апокрифічна, це міг би мати на увазі Фішер.
  3. Філософія науки Фішера була по суті попперійською . Тобто, нуль не обов'язково був відхилитись безперервно, щоб підтвердити свою теорію, але в ідеалі може бути сама ваша теорія, така що відмова означає, що теорія вашого домашнього улюбленця неправильна, і вам потрібно повернутися до креслярської дошки. У такому випадку інфляція помилок типу I не піде на користь досліднику. (З іншого боку, ця інтерпретація перешкоджає Фішеру давати цю пораду, якби він не був сварливим, що не вийшло б із характеру.)
  4. У будь-якому випадку, варто зазначити, що причина, яку я включив у цей коментар, полягає в тому, що він ілюструє щось принципове щодо різниці в характері двох підходів.

1
p

До речі, було б чудово, якби ви могли детальніше розглянути «різницю в характері двох підходів». Метод Фішера звучить більш ... суб'єктивно, тому що я відчуваю, що він насправді не переймається рівнем помилок, але я можу щось пропустити.
nalzok

1
@nalzok, різниця обговорюється в початковій темі: підхід Неймана-Пірсона передбачає, що дослідження є дискретною подією, ти робиш це і підеш; Підхід Фішера передбачає, що це питання постійно триває. Re: # 2, якщо ви аналізуєте дані поодинці, це не p-хакерство (якщо, можливо, ви запускаєте кілька досліджень і публікуєте лише те, що показало те, що ви хочете). Re: # 3, ні, нуль не прийнято, вам потрібно продовжувати знаходити кращі способи перевірити свою теорію.
gung - Відновіть Моніку

1
pp

1
(+1) Іноді я думаю, що ми зосереджуємось на дереві і сумуємо за лісом. Досить прямо, коли у нас є складна проблема, більше даних, як правило, краще, ніж менше даних. У більшості випадків більше даних не набагато краще. Як підказує проникливий документ Менґ за 2018 рік " Статистичні паради та парадокси у великих даних (I) ", отримання кращих даних (наприклад, добре підібраної вибірки) набагато корисніше, ніж більші дані, коли ми намагаємось оцінити невідому кількість. Але більше даних зазвичай допомагає!
usεr11852 повідомляє Відновити Моніку

6

Те, що ми називаємо P-зломкою, - це тест на значимість кілька разів і лише повідомляти про результати значущості. Добре це чи погано, залежить ситуація.

Для пояснення давайте подумаємо про справжні наслідки в байєсівських термінах, а не нульові та альтернативні гіпотези. Поки ми вважаємо, що наші інтереси викликають постійний розподіл, ми знаємо, що нульова гіпотеза помилкова. Однак у випадку двостороннього тестування ми не знаємо, чи є він позитивним чи негативним. У цьому світлі ми можемо вважати значення р для двосторонніх тестів як міру того, наскільки міцні докази того, що наша оцінка має правильний напрямок (тобто позитивний чи негативний ефект).

p<α

Тепер подумайте, що станеться, коли ви продовжуєте повертатися назад, щоб отримати більше даних. Кожен раз, коли ви отримуєте більше даних, ваша ймовірність виправити напрямок, обумовлений достатньою кількістю даних, лише зростає. Отже, під цим сценарієм ми повинні усвідомити, що отримуючи більше даних, хоча ми насправді збільшуємо ймовірність помилки I типу, ми також зменшуємо ймовірність помилкового висновку неправильного напрямку.

Візьміть це на противагу більш типовому зловживанню P-злому; ми перевіряємо 100 розмірів ефектів, які мають велику ймовірність бути дуже маленькими та повідомляємо лише про значні. Зауважте, що в цьому випадку, якщо всі ефекти невеликі, у нас майже 50% шансів помилитися в напрямку, коли ми оголосимо про важливість.

Звичайно, отримані p-значення, отримані з цих даних-подвоєння, все ж повинні надходити із зерном солі. Хоча, як правило, у вас не виникає проблем з тим, що люди збирають більше даних, щоб бути більш впевненими в розмірі ефекту, цим можна зловживати іншими способами. Наприклад, розумний PI може усвідомити, що замість того, щоб зібрати всі 100 точок даних одночасно, вони могли заощадити купу грошей і збільшити потужність, спочатку зібравши 50 точок даних, проаналізувавши дані, а потім зібравши наступні 50, якщо це не суттєво . У цьому сценарії вони збільшують вірогідність того, що напрямок ефекту буде неправильним, обумовленим декларуванням значущості, оскільки вони мають більше шансів отримати неправильний напрямок ефекту з 50 точками даних, ніж зі 100 точками даних.

І нарешті, врахуйте наслідки не отримувати більше даних, коли ми маємо незначний результат. Це означало б, що ніколи не збирайте більше інформації з цієї теми, що насправді не підштовхує науку вперед, чи не так? Одне недостатнє дослідження вбило б ціле поле.


1
(+1) Це цікава точка зору, але чи можете ви детальніше розповісти про різницю між методологією Фішера та розумною ІП? Обидва збирають більше даних, тому що початковий тест є незначним, здається.
nalzok

Крім того, я не впевнений, що ви маєте на увазі під тим, "хоча ми насправді збільшуємо ймовірність помилки I типу, ми також зменшуємо ймовірність помилкового висновку неправильного напрямку". У чому тут нульова гіпотеза? ІМО, якщо ви робите односторонній тест, то "висновок неправильного напрямку" - це "помилка I типу", а для двосторонніх тестів не слід робити висновок напряму.
nalzok

Виправте мене, якщо я помиляюся, але я думаю, що ви пропонуєте продовжувати збирати більше даних, поки двосторонній тест не буде значущим, і в цьому випадку рівень помилок I типу буде 100%.
nalzok

1
Ключова відмінність між тим, що рекомендує Фішер, та розумним / наївним ІП, полягає в тому, що Фішер робить цей дзвінок під час завершення дослідження. Його варіанти або збирати більше даних, або вирішити, що він ніколи не дізнається напрямок ефекту. З іншого боку, ІР вирішує підкріпити своє початкове дослідження, перш ніж він навіть побачить дані.
Кліф АВ

1
@nalzok: впевнений, я спробую заглянути в неробочий час :)
Cliff AB

1

Якщо альтернатива мала невелику апріорну ймовірність, то експеримент, який не зможе відкинути нуль, ще більше зменшить її, зробивши будь-яке подальше дослідження ще менш економічним. Наприклад, припустимо, що апріорна ймовірність дорівнює .01. Тоді ваша ентропія - 0,08 біт. Якщо ймовірність зменшиться до .001, то ваша ентропія зараз .01. Таким чином, продовження збору даних часто не є економічно вигідним. Однією з причин, чому було б рентабельно, було те, що знання є настільки важливим, що навіть решту ентропії .01 варто зменшити.

Ще одна причина, якби апріорна ймовірність була справді великою. Якщо ваша апріорна ймовірність становила більше 50%, то, якщо не відхилити нуль, збільшується ваша ентропія, що робить більш економічним продовження збору даних. Прикладом може бути, коли ви майже впевнені, що є ефект, але не знаєте, в якому напрямку.

Наприклад, якщо ви є агентом контррозвідки і впевнені, що в департаменті є моль, і звузили його до двох підозрюваних, і робите статистичний аналіз, щоб вирішити, який із них, то статистично незначний результат виправдав би збір більше даних.


Чому відмова відхилення нуля зменшує її ймовірність? Хоча відсутність доказів не є свідченням відсутності, я не можу зрозуміти, чому це докази проти відсутності.
nalzok

@nalzok Я писав "Якщо альтернатива мала невелику апріорну ймовірність, тоді експеримент, який не вдасться відхилити нуль, ще більше зменшить його. Хоча" null "є найближчим іменником до" it ", null не є кількістю, і тому не може зменшитися і не є дійсним допоміжним елементом для "це". Крім того, "далі" вказує на те, що "воно" відноситься до чогось вже невеликого. Ці факти вказують на те, що попереднє "це" є "малою апріорною ймовірністю" альтернативи.
Накопичення
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.