Множинна регресія з відсутньою змінною предиктора


9

Припустимо, нам надають набір даних форми (y,x1,x2,,xn) і (y,x1,x2,,xn1). Нам дається завдання передбачитиy на основі значень x. Ми оцінюємо дві регресії, де:

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

Ми також оцінюємо регресію, яка прогнозує значення xn на основі значень (x1,,xn1), це є:

(3)xn=f3(x1,,xn1)

Припустимо, тепер нам дано значення (x1,,xn1), тоді у нас було б два різні методи прогнозування y:

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

Який із них був би кращим взагалі?

Я здогадуюсь, що перше рівняння було б краще, оскільки воно використовує інформацію з двох форм точок даних, тоді як друге рівняння використовує інформацію лише з точок даних, які мають n1значення предиктора Моє навчання статистиці обмежене, і тому я хотів би звернутися за професійною порадою.

Також, загалом, який найкращий підхід до даних, які мають неповну інформацію? Іншими словами, як можна отримати найбільшу інформацію з даних, які не мають значення у всіхn розміри?


Оцінюючи фактичні фактичні показники проти оцінювання - ви вирішите :)
Кандидат

Невже це так просто?
Сяовен Лі

Відповідь може бути, це залежить. Скільки даних бракує? Скільки у вас загальних даних? Скільки у вас прогнозів?
Джоель В.

Відповіді:


6

+1, я думаю, що це дійсно цікаве і чітко викладене питання. Однак більше інформації допоможе нам продумати цю ситуацію.

Наприклад, які стосунки між ними xn і y? Цілком можливо, що немає жодної, в цьому випадку регресії(1) не дає переваги щодо регресії (2). (Насправді, це зовсім незначний недолік, в тому сенсі, що стандартні помилки будуть трохи більшими, і, отже, бета може бути дещо далі, в середньому, від їх справжнього значення.) Якщо є відображення функціїxn до y, то, за визначенням, там є реальна інформація і регресія (1) буде краще в початковій ситуації.

Далі, яка природа відносин між (x1,,xn1) і xn? Чи є такий? Наприклад, коли ми проводимо експерименти, (як правило) ми намагаємось призначити однакові кількості одиниць дослідження кожній комбінації значень пояснювальних змінних. (Цей підхід використовує множину декартового продукту рівнів IV-х років і називається "повною факторною" конструкцією; також є випадки, коли рівні навмисно плутаються для збереження даних, званих " дробовими факторними " проектами.) пояснювальні змінні є ортогональними, ваша третя регресія дасть абсолютно рівно 0. З іншого боку, в спостережному дослідженні коваріати майже завжди співвідносяться. Чим сильніша кореляція, тим менше інформації існує вxn. Ці факти будуть модулювати відносні достоїнства регресії(1) і регресія (2).

Однак (на жаль, можливо) це складніше, ніж це. Однією з важливих, але важких концепцій багаторазової регресії є мультиколінеарність . Якщо ви спробуєте оцінити регресію(4), ви виявите, що у вас ідеальна мультиколінеарність, і ваше програмне забезпечення скаже вам, що матриця дизайну не є зворотною. Таким чином, в той час як регресія(1) цілком може запропонувати перевагу відносно регресії (2), регресія (4) не буде.

Більш цікаве питання (і те, що ви задаєте) - це що робити, якщо ви використовуєте регресію (1) робити прогнози щодо y використовуючи кошторисне xn значення виведення з прогнозів регресії (3)? (Тобто ви не оцінюєте регресію(4)— Ви підключаєте вихід до рівняння прогнозування, оціненого в регресії (3) в модель прогнозування (4).) Справа в тому, що ви фактично не отримуєте тут ніякої нової інформації. Яка б інформація не була першоюn1 значення прогнозів для кожного спостереження вже оптимально використовуються шляхом регресії (2), тому виграшу немає.

Таким чином, відповідь на ваше перше запитання полягає в тому, що ви також можете піти з регресією (2)для ваших прогнозів, щоб заощадити непотрібну роботу. Зауважте, що я вирішував це досить абстрактно, а не вирішував конкретну ситуацію, яку ви описуєте, коли хтось передає вам два набори даних (я просто не можу уявити, що це відбувається). Натомість я розглядаю це питання як намагання зрозуміти щось досить глибоке щодо природи регресії. Однак, що трапляється в деяких випадках, це те, що деякі спостереження мають значення для всіх предикторів, а деякі інші спостереження (в межах одного набору даних) не містять значень для деяких прогнозів. Особливо часто це стосується поздовжніх даних. У такій ситуації потрібно дослідити багаторазову імпутацію .


Дякую Гунг за детальну відповідь, і ви допомагаєте змінити формулювання мого питання. Я відповім, як тільки я повністю витлумачу вашу відповідь. Для вашої інформації це спостережне дослідження щодо ціни на лампочки.xnвключають години життя, світність та кольорову температуру колби. Інформація збирається у роздрібної торгівлі, яка зазвичай не дає все, що призводить до зниклих прогнозів. Проте ми намагаємося максимально використати інформацію, яку ми зібрали.
Xiaowen Li

1
Гаразд, я думав, що мова йде лише про розуміння регресії. Я б розглядав багаторазову імпутацію.
gung - Відновіть Моніку

Дякую Гунгу за ваше розуміння. Ви праві, що ніякої нової інформації не отримують за допомогою рівняння 4. Імпутація виявляється саме тим, що мені було потрібно. І ви маєте рацію, я зіткнувся з множинною колінеарністю, давши мені дуже велике значення p для коефіцієнтів. Тоді я зіткнувся з вибором або зменшити кількість змінних, отримати менше значення p для коефіцієнтів, або отримати більшеr2і більший p. Я здогадуюсь, життя наповнене компромісом.
Сяовен Лі

Ще раз дякую за ваші абстрактні дискусії щодо регресій. Статистика може бути надзвичайно інтригуючою, якщо ми розглянемо це як метод пошуку істини. Я розгляну це ще раз, коли я закінчу з набором даних :)
Xiaowen Li

Вам слід перевірити параметричну дробову імпутацію. Це робота, виконана Дже Кван Кім у штаті Айова, яка може бути ідеальною для цієї ситуації. Дивіться biomet.oxfordjournals.org/content/98/1/119.abrief
StatsStudent
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.