Припустимо, нам надають набір даних форми і . Нам дається завдання передбачити на основі значень . Ми оцінюємо дві регресії, де:
Ми також оцінюємо регресію, яка прогнозує значення на основі значень , це є:
Припустимо, тепер нам дано значення , тоді у нас було б два різні методи прогнозування :
Який із них був би кращим взагалі?
Я здогадуюсь, що перше рівняння було б краще, оскільки воно використовує інформацію з двох форм точок даних, тоді як друге рівняння використовує інформацію лише з точок даних, які мають значення предиктора Моє навчання статистиці обмежене, і тому я хотів би звернутися за професійною порадою.
Також, загалом, який найкращий підхід до даних, які мають неповну інформацію? Іншими словами, як можна отримати найбільшу інформацію з даних, які не мають значення у всіх розміри?