Регресія, заснована, наприклад, на дні тижня


11

Мені потрібно трохи допомоги, щоб рухатись у правильному напрямку. З давніх пір я вивчив будь-яку статистику, і жаргон, схоже, змінився.

Уявіть, що у мене є набір даних про автомобіль, таких як

  • Час подорожі з міста А до міста Б
  • Відстань від міста A до міста B
  • Розмір двигуна
  • Розмір взуття для водія
  • Марка та модель автомобіля
  • День тижня

Хочу передбачити час подорожі.

Я думаю, що існує сильна кореляція між часом та дистанцією і, ймовірно, слабша за розміром двигуна (і жодна до розміру взуття). Імовірно багаторазовий регресійний аналіз / ANOVA - це інструмент для використання. Але як я включаю день тижня, оскільки просто кодувати його як неділя = 1, понеділок = 2 і т. Д. Почувається дуже неправильно?

Наприклад, використовуючи інструмент регресії Excel, як я інтерпретую результати? Імовірно, якщо R близький до 1, це добре (хоча, якщо даних є багато, це здається, що він може бути малим, але все-таки є значущим). Але деякі джерела посилаються на r-квадрат, який здається SD, тому значення, близьке до нуля, добре. Він також показує t Stat, P-значення, F та Значення F, якими б вони не були. Хтось може порекомендувати хороший довідковий джерело?


2
Для запису ці питання (про інтерпретацію результатів регресії) були задані в іншій темі тут , але питання було настільки погано сформульоване, що воно не набрало жодної хорошої відповіді. Це фундаментальне запитання, яке заслуговує на "канонічну" відповідь, яка є елементарною, але всебічно, зрозумілою та добре поясненою.
качан

Відповіді:


26

Вам потрібно ґрунтовний огляд методу регресії. Однак ці питання є достатньо елементарними (не сприймайте це неправильно), що навіть хороший огляд базової статистики, можливо, вам піде на користь. Хоуелл написав дуже популярний підручник, який забезпечує широку концептуальну основу, не вимагаючи щільної математики. Можливо, варто того, щоб прочитати його. Тут неможливо висвітлити весь цей матеріал. Однак, я можу спробувати вас розпочати з деяких ваших конкретних питань.

По-перше, дні тижня включаються за допомогою схеми кодування. Найпопулярнішим є кодування 'довідкової категорії' (зазвичай його називають фіктивним кодуванням). Давайте уявимо, що ваші дані представлені в матриці, а ваші регістри - у рядках, а ваші змінні - у стовпцях. У цій схемі, якби у вас було 7 категоричних змінних (наприклад, для днів тижня), ви додали б 6 нових стовпців. Ви б обрали один день як опорну категорію, як правило, ту, яку вважають за замовчуванням. Часто про це повідомляють теорія, контекст або дослідницьке питання. Я не маю уявлення, що було б найкраще для днів тижня, але це теж не дуже важливо, ви можете просто вибрати будь-який старий. Після того, як у вас є довідкова категорія, ви можете призначити інших вашим новим 6 змінним, тоді ви просто вкажете, чи отримана ця змінна для кожного випадку. Наприклад, скажіть, що ви вибрали неділю як референтну категорію, ваші нові стовпці / змінні будуть понеділок-субота. Кожне спостереження, яке відбулося в понеділок, позначатиметься знаком "a"1010

З давніх пір я дивився на те, як Excel робить статистику, і не пам'ятаю це дуже чітко, тому хтось інший, можливо, зможе вам більше допомогти. На цій сторінці, схоже, є інформація про специфіку регресії в Excel. Я можу розповісти вам трохи більше про статистику, яку зазвичай повідомляють у регресійних результатах:

  • r1
  • rrrrr
  • rr×r10r1R21rR2) сильно зміщений при множинній регресії. Тобто, чим більше прогнозів ви додасте до своєї моделі, тим вище ця статистика піде, чи є стосунки чи ні. Таким чином, вам слід бути обережними щодо їх тлумачення.
  • тЖ
  • p
  • тЖpЖ1Ж
  • ЖЖ

Останнє, що варто підкреслити, - це те, що цей процес не може бути відокремлений від його контексту. Щоб добре проаналізувати дані, ви повинні пам’ятати свої основні знання та дослідницьке питання. Я нагадав на це вище щодо вибору референтної категорії. Наприклад, ви зазначаєте, що розмір взуття не повинен бути актуальним, але для Flintstones це, мабуть, було! Я просто хочу включити цей факт, тому що він часто здається забутим.


5
(+1) Excel насправді може робити кілька регресій і має команду, здатну створювати стандартну підсумкову таблицю. Зважаючи на його історичну тенденцію бути (дуже) неохайною при обчисленні розподільних значень, цю здатність слід розглядати як собаку Семюеля Джонсона : "... собака ходить на задніх лапах. Це не добре; але ви здивовані, коли виявите це взагалі робилося ».
whuber

3

Ви закінчуєте безліч питань, що вимагає "викладання" регресії. Дозвольте сказати, що вище R ^ 2 краще, але є застереження. R ^ 2 завжди збільшується в міру додавання змінних, щоб ви могли штучно їх надути. Подивіться на тести на значущість, подивіться на залишкову діагностику тощо. Що стосується дня тижня, понеділка = 1, вівторка = 2 тощо, це не був би шлях. Що ви хочете - сезонні змінні показників: 0/1 якщо понеділок, 0/1 якщо вівторок тощо.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.