Це те, що я вважаю зробленим як своєрідний метод, і мені це здається дуже рибковим, але, можливо, я щось пропускаю. Я бачив це в багатьох регресіях, але давайте просто будемо робити це просто:
Тепер візьміть залишки від встановленої моделі
і стратифікувати зразок виходячи з розміру залишків. Наприклад, скажімо, що перший зразок - це 90% нижчих залишків, а другий - 10%, а потім - два порівняння вибірки - я бачив, як це робилося як на прогнокторі в моделі, і щодо змінних, які не є в моделі. Використовувана неформальна логіка полягає в тому, що, можливо, точки, які мають значення, набагато вищі, ніж ви очікували в моделі (тобто великий залишковий), певним чином відрізняються, і ця різниця досліджується таким чином.
Мої думки з цього приводу:
- Якщо ви бачите в моделі 2-вибіркову різницю щодо предиктора, то виникають ефекти провісника, які не враховуються моделлю в його поточному стані (тобто нелінійні ефекти).
- Якщо ви бачите різницю в 2-х вибірках змінної не в моделі, то, можливо, вона повинна була бути в моделі в першу чергу.
Одне, що я виявив емпірично (за допомогою симуляцій), - це те, що якщо ви порівнюєте середнє значення прогноктора в моделі і таким чином стратифікуєте, щоб отримати два засоби вибірки, і , вони позитивно співвідносяться між собою. Це має сенс, оскільки обидва зразки залежать від та . Ця кореляція збільшується в міру переміщення відсікання (тобто%, який ви використовуєте для поділу вибірки). Так щонайменше, якщо ви збираєтеся зробити порівняння у двох зразках стандартної помилки в знаменнику-статистику потрібно скоригувати, щоб врахувати кореляцію (хоча я не вивів явної формули коваріації).
Як би там не було, моє основне питання: чи є обґрунтування для цього? Якщо так, то в яких ситуаціях це може бути корисно зробити? Ясна річ, я не думаю, що є, але може бути щось, про що я не думаю правильно.
IV
s? Якщо це так, я не можу бачити сенсу цього, оскільки залишковий спліт вже використовує цю інформацію. Чи можете ви навести приклад того, де ви це бачили, це для мене нове?