Відмова: Я вважаю, що ця відповідь лежить в основі всього аргументу, тому варто обговорити, але я не повністю дослідив цю проблему. Тому я вітаю виправлення, уточнення та коментарі.
Найважливіший аспект стосується послідовно зібраних даних. Наприклад, припустимо, що ви спостерігали бінарні результати, і ви побачили 10 успіхів і 5 невдач. Принцип ймовірності говорить про те, що ви повинні прийти до одного і того ж висновку щодо ймовірності успіху, незалежно від того, чи збирали ви дані, поки у вас не було 10 успіхів (негативний двочлен) або не пройшли 15 випробувань, з яких 10 були успіхами (двочленними) .
Чому це має будь-яке значення?
Оскільки згідно з принципом ймовірності (або, принаймні, певної його інтерпретації), цілком чудово дозволити впливати на дані, коли ви збираєтесь зупинити збір даних, не змінюючи інструменти висновку.
Конфлікт з послідовними методами
Ідея, що використовувати ваші дані, щоб вирішити, коли припинити збирати дані, не змінюючи ваші інфекційні засоби, повністю летить перед традиційними методами послідовного аналізу. Класичний приклад цього - з методами, які використовуються в клінічних випробуваннях. З метою зменшення потенційного впливу шкідливих методів лікування часто аналізують дані в проміжні періоди до того, як буде зроблений аналіз. Якщо випробування ще не закінчилося, але в дослідників вже є достатньо даних, щоб зробити висновок про те, що лікування діє чи є шкідливим, медична етика говорить нам, що ми повинні припинити випробування; якщо лікування працює, етично припинити випробування і почати надавати лікування доступним для пацієнтів, які не отримують судового розгляду. Якщо це шкідливо, етичніше зупинятись, щоб ми припиняли піддавати пацієнтам пробне лікування шкідливому лікуванню.
Проблема полягає в тому, що ми почали проводити кілька порівнянь, тому ми збільшили рівень помилок типу I, якщо не підкоригували наші методи для врахування кількох порівнянь. Це не зовсім те саме, що традиційні багаторазові порівняння, оскільки це дійсно багаторазове часткове порівняння (тобто якщо ми аналізуємо дані один раз з 50% зібраних даних та один раз зі 100%, ці два зразки явно не є незалежними!) , але в цілому, чим більше порівнянь ми робимо, тим більше нам потрібно змінювати наші критерії відхилення нульової гіпотези, щоб зберегти показник помилок типу I, при цьому планується більше порівнянь, що потребують більше доказів для відхилення нуля.
Це ставить клінічних дослідників перед дилемою; чи хочете ви часто перевіряти свої дані, але потім збільшуйте необхідні докази, щоб відхилити нуль, чи ви хочете нечасто перевіряти свої дані, збільшуючи владу, але потенційно не діючи оптимально стосовно медичної етики (тобто, можливо, затримати товар на ринку або непотрібно довго піддавати пацієнтів шкідливому лікуванню).
Моє (можливо, помилкове) розуміння, що принцип імовірності, як видається, говорить нам про те, що не важливо, скільки разів ми перевіряємо дані, ми повинні робити той самий висновок. Це в основному говорить про те, що всі підходи до послідовного пробного проектування абсолютно непотрібні; просто використовуйте принцип ймовірності і зупиняйтеся, як тільки ви зібрали достатньо даних, щоб зробити висновок. Оскільки вам не потрібно змінювати свої методи висновків, щоб підкоригувати кількість підготовлених аналізів, немає ніякої дилеми між кількістю перевірених разів та потужністю. Бам, ціле поле послідовного аналізу вирішено (відповідно до цієї інтерпретації).
Особисто для мене це дуже бентежить, що факт, який добре відомий у галузі послідовного проектування, але досить тонкий, полягає в тому, що ймовірність остаточної статистики тесту значною мірою змінюється правилом зупинки; в основному правила зупинки збільшують вірогідність переривчастим способом у точках зупинки. Ось сюжет такого спотворення; пунктирна лінія - це PDF-файл остаточної статистики тесту під нулем, якщо дані аналізуються лише після того, як всі дані зібрані, тоді як суцільна лінія дає вам розподіл під нулем тестової статистики, якщо ви перевіряєте дані 4 рази із заданим значенням правило.
Зважаючи на це, я розумію, що принцип ймовірності, мабуть, означає, що ми можемо викинути все, що ми знаємо про послідовну розробку частот, і забути про те, скільки разів ми аналізуємо наші дані. Зрозуміло, що наслідки цього, особливо для галузі клінічних розробок, величезні. Однак я не замислювався над тим, як вони виправдовують ігнорування того, як зупиняючі правила змінюють ймовірність остаточної статистики.
Деяке світло обговорення можна знайти тут , в основному , на заключних гірках.