Мені здається, що ваше запитання, як правило, стосується різного аромату валідації для прогнозної моделі: перехресне підтвердження має дещо більше спільного з внутрішньою валідністю або, принаймні, початковою стадією моделювання, тоді як нанесення причинно-наслідкових зв’язків на більш широку групу більше пов'язане до зовнішньої дійсності. Під цим (і як оновлення після приємного зауваження @ Бретта) я маю на увазі, що ми зазвичай будуємо модель на робочому зразку, приймаючи гіпотетичну концептуальну модель (тобто ми визначаємо взаємозв'язок між прогнозами та результатами, що цікавлять), і ми намагаємось отримати надійні оцінки з мінімальною помилкою класифікації або мінімальною помилкою прогнозування. Сподіваємось, чим краще модель працює, тим краще вона дозволить нам передбачити результат (і) на небачених даних; все-таки резюме нічого не розповідає про "обгрунтованість" або адекватність гіпотезованих причинно-наслідкових зв'язків. Ми, безумовно, могли б досягти гідних результатів за допомогою моделі, коли деякі поміркованість та / або посередницькі ефекти нехтують або просто не знаються заздалегідь.
Моя думка полягає в тому, що незалежно від методу, який ви використовуєте для перевірки вашої моделі (і метод тримання, звичайно, не найкращий, але все-таки він широко застосовується в епідеміологічному дослідженні для полегшення проблем, що виникають в результаті поетапної побудови моделі), ви працюєте з тим же зразком (який ми вважаємо репрезентативним для більшої кількості населення). Навпаки, узагальнення результатів та причинно-наслідкових зв’язків, що виводяться таким чином на нові зразки чи правдоподібну сукупність, зазвичай роблять шляхом реплікаційних досліджень . Це гарантує, що ми можемо сміливо перевірити прогностичну здатність нашої моделі в "суперпопуляції", яка має більш широкий спектр окремих варіацій і може виявляти інші потенційні фактори, що цікавлять.
Ваша модель може надавати правильні прогнози для вашого робочого зразка, і вона включає в себе всі потенційні плутанини, про які ви можете подумати; однак можливо, що він не буде так добре працювати з новими даними, лише тому, що в ході втручаного причинного шляху з'являються інші фактори, які не були визначені при побудові початкової моделі. Це може статися, якщо деякі прогнози та причинно-наслідкові зв’язки, які випливають з нього, залежать від конкретного центру випробування, куди приймали пацієнтів, наприклад.
У генетичній епідеміології багато досліджень, пов’язаних з геномом, не вдається повторити лише тому, що ми намагаємося моделювати складні захворювання з надто спрощеним поглядом на причинно-наслідкові зв’язки між маркерами ДНК та спостережуваним фенотипом, хоча дуже ймовірно, що ген-ген (епістаз), генні хвороби (плейотропія), генетичне середовище та підструктура популяції вступають у гру, але див Валідація, посилення та уточнення сигналів асоціації, пов’язаних із геном.(Ioannidis et al., Nature Reviews Genetics, 2009, 10). Таким чином, ми можемо створити ефективну модель для обліку спостережуваних перехресних варіацій між набором генетичних маркерів (з дуже низьким і розрідженим розміром ефекту) та багатоваріантною схемою спостережуваних фенотипів (наприклад, об'єм біло / сірого речовини або локалізована діяльність в мозку, що спостерігається за допомогою fMRI, відповіді на нейропсихологічну оцінку чи інвентаризацію особистості), все ж не буде виконуватись так, як очікувалося на незалежній вибірці.
Що стосується загальної посилання на цю тему, можна порекомендувати розділ 17 та частину III моделей клінічного прогнозування від EW Steyerberg (Springer, 2009). Мені також подобається наступна стаття від Ioannidis:
Ioannidis, JPA, чому найбільш опубліковані результати досліджень є помилковими? PLoS Med. 2005. 2 (8): e124