Як почати будувати регресійну модель, коли найбільш сильно асоційований предиктор - двійковий


11

У мене є набір даних, що містить 365 спостереження за трьома змінними, а саме pm, tempі rain. Тепер я хочу перевірити поведінку pmу відповідь на зміни інших двох змінних. Мої змінні:

  • pm10 = Відповідь (залежно)
  • temp = предиктор (незалежний)
  • rain = предиктор (незалежний)

Далі наведена кореляційна матриця для моїх даних:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Проблема полягає в тому, що коли я вивчав побудову регресійних моделей, було написано, що метод адиції починати зі змінної, яка найбільш сильно пов'язана зі змінною відгуку. У моєму наборі даних rainдуже співвідноситься з pm(порівняно з temp), але в той же час це фіктивна змінна (дощ = 1, без дощу = 0), тож тепер у мене є підказки, з чого слід почати. Я доклав два зображення з питанням: Першим з них є розсіюванням даних, а друге зображенням є діаграмою розсіювання pm10VS. rain, я теж не в змозі інтерпретувати діаграму розсіювання pm10VS. rain. Може хтось допоможе мені, як почати?

це розсіяний сюжет моїх даних

розкидання сюжету pm10 проти дощу


3
Це цілком життєздатне питання, ІМО, навіть якщо воно випливає з непорозуміння.
gung - Відновіть Моніку

Одне, що слід пам’ятати з регресією, - це те, що залежна змінна вважається випадковою змінною, тоді як прогнози вважаються фіксованими експериментально керованими змінними. (таким чином, будьте обережні, коли ви щось повертаєте на голову). У вашій матриці не виявляється жодної сильної позитивної чи негативної кореляції, оскільки жодна із ? yixi1,xi2,,xip|rjk|>0.8
wrktsj

Відповіді:


17

Багато людей вважають, що вам слід скористатися такою стратегією, як початок з найбільш сильно пов'язаної змінної, а потім додавати додаткові змінні по черзі, поки одна не є суттєвою. Однак немає логіки, яка б змушувала цей підхід. Більше того, це свого роду «жадібна» змінна стратегія вибору / пошуку (пор., Моя відповідь тут: Алгоритми автоматичного вибору моделі ). Вам не потрібно цього робити , і справді, ви не повинні. Якщо ви хочете знати зв’язок між pmі tempтаrain, просто підходимо до моделі множинної регресії з усіма трьома змінними. Вам все одно доведеться оцінити модель, щоб визначити, чи вона розумна і чи допущені припущення, але це все. Якщо ви хочете перевірити якусь апріорну гіпотезу, ви можете зробити це з моделлю. Якщо ви хочете оцінити модель за вибірковою точністю прогнозування, ви можете зробити це за допомогою перехресної перевірки.

Вам також не потрібно хвилюватися з приводу мультиколінеарності. Кореляція між tempта rainвказана як 0.044у вашій матриці кореляції. Це дуже низька кореляція і не повинна викликати проблем.


1
дуже дякую за добрі пропозиції. я не знайомий на цьому веб-сайті, не знаю, як ним користуватися, чи можете ви надати кілька додаткових пропозицій чи вивчення матеріалів
Syed Asif Ali Shah

1
@SyedAsifAliShah, окрім того, що англійська мова не здається вашою рідною мовою, я не бачу проблем із тим, як ви користуєтесь сайтом. Щодо навчальних матеріалів, ви можете переглянути це чи це , або просто переглядати наші теми з тегом посилань .
gung - Відновіть Моніку

я повинен спробувати лінійну модель або GLM для моїх даних ??
Сид Асіф Алі Шах

1
@SyedAsifAliShah, імовірно, лінійна модель чудово підходить для ваших даних.
gung - Відновіть Моніку

бра, мені потрібна ваша допомога
Syed Asif Ali Shah

10

Хоча це не стосується безпосередньо вашого вже зібраного набору даних, інша річ, яку ви можете спробувати наступного разу, коли ви збираєте такі дані, - це уникати запису "дощу" як двійкового. Ваші дані, ймовірно, будуть більш інформативними, якби ви замість цього заміряли швидкість дощу (см / годину), яка дала б вам змінну, що поширюється постійно (до вашої точності вимірювання) від 0 ... max_rainfall.

Це дозволить вам співвіднести не лише "чи йде дощ" з іншими змінними, але і "скільки дощить".


привіт, брато, я зробив те саме за вашою пропозицією, я зібрав повні дані про дощ та модель конструкції
Syed Asif Ali Shah

чи можу я просити ваш електронний лист, будь ласка ??? Я просто хочу задати декілька питань
Syed Asif Ali Shah

Якщо у вас є додаткові запитання щодо налаштування вашої моделі, можливо, новим питанням StackExchange буде саме шлях. Таким чином ви можете отримати зворотній зв’язок від більшості людей, багато з яких більш досвідчені, ніж я.
JKreft

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.