З великою мірою ви можете робити все, що завгодно, за умови, що ви тримаєте достатньо даних навмання, щоб перевірити будь-яку модель, яку ви придумали на основі збережених даних. 50% розкол може бути хорошою ідеєю. Так, ви втрачаєте деяку здатність виявляти стосунки, але те, що ви отримуєте, величезне; а саме можливість копіювати свою роботу до її публікації. Незалежно від того, наскільки складні статистичні методи ви несете, ви будете шоковані тим, скільки "значущих" провісників закінчуються абсолютно марними при застосуванні до даних підтвердження.
Майте також на увазі, що "релевантний" для прогнозування означає більше, ніж низьке значення p. Зрештою, це означає лише, що ймовірно, що відносини, знайдені в цьому конкретному наборі даних, не є випадковими. Для прогнозування насправді важливіше знайти змінні, які чинять істотний вплив на передбачення (без надмірної підгонки до моделі); тобто знайти змінні, які, ймовірно, є "справжніми", і коли вони змінюються в межах розумного діапазону значень (не лише значень, які можуть виникнути у вашому зразку!), спричиняють істотне коливання прогнозу. Якщо у вас є дані про затримку для підтвердження моделі, ви можете бути зручнішими, тимчасово зберігаючи незначно "значущі" змінні, які можуть мати низькі значення p.
З цих причин (і спираючись на точну відповідь chl), хоча я знайшов поетапні моделі, порівняння AIC та виправлення Бонферроні досить корисними (особливо із сотнями чи тисячами можливих прогнозів у грі), вони не повинні бути єдиними визначальними чинниками змінних введіть свою модель. Не втрачайте з уваги вказівки, що надаються теорією: змінні, які мають сильне теоретичне обґрунтування, щоб бути у моделі, зазвичай повинні зберігатися, навіть якщо вони не є істотними, за умови, що вони не створюють неправильних умов ( наприклад, колінеарності) .
Примітка : Після того, як ви встановите модель та підтвердили її корисність за допомогою даних про витримку, непогано рекомбінувати збережені дані з даними про затримку для остаточної оцінки. Таким чином, нічого не втрачається з точки зору точності, з якою можна оцінити модельні коефіцієнти.