Ви не можете мати правило зупинки без уявлення про ваш розподіл та розмір ефекту - що ви не знаєте апріорі.
Також так, нам потрібно зосередитись на розмірі ефекту - і це ніколи не вважалося правильним вважати лише p-значеннями, і ми, звичайно, не повинні показувати таблиці або графіки, які показують p-значення або F-значення, а не розмір ефекту.
Існують проблеми з традиційним тестуванням висновку статистичної гіпотези (яке, за словами Коена, гідне своєї абревіатури, і Фішер та Пірсон обидва перевернулися б в могилах, якби побачили все, що сьогодні робиться в їхніх жорстоко протилежних назвах).
Щоб визначити N, вам потрібно було вже визначити цільову значущість та поріг потужності, а також зробити багато припущень щодо розподілу, і, зокрема, вам також потрібно було визначити розмір ефекту, який ви хочете встановити. Внутрішня послуга абсолютно правильна, що це має бути відправною точкою - який мінімальний розмір ефекту був би рентабельним!
"Нова статистика" рекомендує показувати розміри ефектів (як парні різниці, де це доречно), разом із пов'язаними стандартними відхиленнями або дисперсією (тому що нам потрібно зрозуміти розподіл), а також стандартні відхилення або довірчі інтервали (але остання вже є фіксація p-значення та рішення про те, чи прогнозуєте ви напрям чи ставку в кожному напрямку). Але встановлення мінімального ефекту зазначеного знака з науковим прогнозом дає це зрозуміло - хоча донауковий дефолт - це робити спроби та помилки та просто шукати відмінності. Але ви знову зробили припущення про нормальність, якщо підете цим шляхом.
Інший підхід полягає у використанні графіків коробки як непараметричного підходу, але умовності про вусів та лихах сильно різняться і вже тоді самі походять із припущень щодо розповсюдження.
Проблема зупинки насправді не є проблемою індивідуального встановлення дослідника чи не встановленням N, а в тому, що у нас є ціла громада тисяч дослідників, де 1000 набагато більше 1 / альфа для традиційного рівня 0,05. В даний час пропонується відповісти, щоб надати підсумкову статистику (середній, stddev, stderr - або відповідні "непараметричні версії - медіана тощо, як у boxplot) для полегшення мета-аналізу та представити комбіновані результати всіх експериментів, чи вони відбудуться досягти певного альфа-рівня чи ні.
Тісно пов'язана проблема багаторазового тестування, яка настільки ж загрожує труднощами, і де експерименти зберігаються надпросто в ім'я збереження потужності, в той час як методи аналізу над результатами пропонуються для аналізу результатів.
Я не думаю, що поки що не може бути підручника з підручників, який би вирішив це остаточно, оскільки ми все ще мало розуміємо, що робимо ...
На даний момент найкращим підходом є, мабуть, продовження використання традиційної статистики, найбільш відповідної до проблеми, у поєднанні з відображенням зведеної статистики - ефект і стандартна помилка, а N є найважливішим. Використання довірчих інтервалів в основному еквівалентно відповідному Т-тесту, але дозволяє порівняти нові результати з опублікованими більш значущим, а також дозволяє етос, що заохочує відтворюваність, та публікацію відтворених експериментів та мета-аналізів.
Що стосується інформаційно-теоретичного або байєсівського підходів, вони використовують різні інструменти і роблять різні припущення, але все ще не мають всіх відповідей, і, врешті-решт, стикаються з тими ж проблемами або гіршими, оскільки байєсівський висновок відступає від остаточного визначення відповідь і просто приводить докази відносних припущених або відсутніх пріорів.
Зрештою, машинне навчання також має результати, які потрібно враховувати для значущості - часто з CI або T-Test, часто з графіками, сподіваємось, спарювання, а не просто порівняння та використання відповідно компенсованих версій, коли розподіли не збігаються. У нього також є суперечки щодо завантажувальної та перехресної перевірки, зміщення та варіації. Найгірше, що він має схильність до генерації та тестування безлічі альтернативних моделей, просто ретельно параметризуючи всі алгоритми в одному з багатьох наборів інструментів, застосованих до наборів даних продумано заархівованих, щоб дозволити безперешкодне багаторазове тестування. Найгірше, що це все ще в темному віці, використовуючи точність, або ще гірше, ніж F-міру, для оцінки - а не методи, спрямовані на випадковість.
Я прочитав десятки праць з цих питань, але не зміг знайти нічого абсолютно переконливого - за винятком негативних досліджень або мета-аналізів, які, здається, вказують на те, що більшість дослідників не обробляють та інтерпретують статистику належним чином стосовно будь-якого "стандарту ", старий чи новий. Потужність, багаторазове тестування, розмір і раннє припинення, інтерпретація стандартних помилок та довірчих інтервалів ... це лише деякі питання.
Будь ласка, збийте мене - я хотів би, щоб я був неправдивим! На мій погляд, є багато води, але ми ще не знайшли дитину! На цьому етапі жоден із крайніх поглядів чи іменних підходів не виглядає перспективною як відповідь, і ті, хто хоче викинути все інше, ймовірно, втратили дитину.