Регресійна модель та просторова автокореляція


15

Я використовував OLS та GWR для перевірки залежностей між двома різними базами даних. Залишковий квадрат для GWR дорівнює 0,82, що робить його правильною регресійною моделлю, яка використовується для визначення взаємозв'язку між двома наборами даних.

Що я хотів це знати, GWR - локальна регресія, а OLS - глобальна регресія, яку слід використовувати де і коли?

Крім того, що це насправді означає, якщо I Моран для моделі GWR є випадковим?

Відповіді:


13

Що це за процедури

Хоча OLS та GWR поділяють багато аспектів їх статистичного формулювання, вони використовуються для різних цілей:

  • OLS формально моделює глобальний зв'язок певного роду. У своєму найпростішому вигляді кожен запис (або випадок) у наборі даних складається з значення x, встановленого експериментатором (часто його називають "незалежною змінною"), та іншого значення, y, яке спостерігається ("залежна змінна" ). OLS припускає, що y приблизнопов'язане з x особливо простим способом: а саме існують (невідомі) числа 'a' і 'b', для яких a + b * x буде хорошою оцінкою y для всіх значень x, в яких експериментатор може бути зацікавлений . "Гарна оцінка" визнає, що значення y можуть і відрізнятимуться від будь-якого такого математичного передбачення, оскільки (1) вони дійсно роблять - природа рідко така проста, як математичне рівняння - і (2) y вимірюється деякими помилка. На додаток до оцінки значень a і b, OLS також кількісно визначає кількість варіацій у. Це дає можливість OLS встановлювати статистичну значимість параметрів a і b.

Ось пристрій OLS:

введіть тут опис зображення

  • GWR використовується для дослідження місцевих стосунків. У цьому налаштуванні є ще (x, y) пари, але зараз (1) зазвичай спостерігаються і x, і y - жоден заздалегідь не може бути визначений експериментатором - і (2) кожен запис має просторове розташування, z . Для будь-якого місця, z (не обов'язково навіть для такого місця, де доступні дані), GWR застосовує алгоритм OLS до сусідніх значень даних, щоб оцінити залежність від конкретного місця між y та x у вигляді y = a (z) + b (z) * х. Позначення "(z)" підкреслює, що коефіцієнти a і b змінюються між місцями. Таким чином, GWR є спеціалізованою версією місцевих зважувачівв яких для визначення мікрорайонів використовуються лише просторові координати. Його вихід використовується для припустити , що значення х і у covary по просторової області. Примітно, що часто немає причин вибирати, який із 'х' і 'у' повинен грати роль незалежної змінної та залежної змінної в рівнянні, але коли ви переключите ці ролі, результати зміниться ! Це одна з багатьох причин, коли GWR слід вважати дослідницькою - візуальною та концептуальною допомогою для розуміння даних - а не формальним методом.

Ось локально зважена гладка. Зауважте, як він може слідувати за очевидними "хитаннями" в даних, але не проходить точно через кожну точку. (Це може бути зроблено для проходу через точки або для слідування меншим хитанням, змінивши налаштування в процедурі, точно так само, як GWR можна зробити так, щоб більш-менш точно слідувати просторовим даним, змінюючи налаштування в його процедурі.)

Lowess

Інтуїтивно, подумайте про OLS як про встановлення жорсткої форми (наприклад, лінії) для розсіювання пар (x, y) пар та GWR як про те, що дозволяє фігурі довільно хитатися.

Вибираючи між ними

У цьому випадку, хоча не ясно, що можуть означати "дві різні бази даних", здається, що використання OLS або GWR для "перевірки" відносин між ними може бути недоцільним. Наприклад, якщо бази даних являють собою незалежні спостереження за однаковою кількістю в одному наборі локацій, то (1) OLS, ймовірно, є недоцільним, оскільки обидва x (значення в одній базі даних) і y (значення в іншій базі даних) повинні бути задуманий як різний (замість того, щоб мислити x як фіксований і точно представлений) та (2) GWR - це чудово для дослідження взаємозв'язку між x і y, але його не можна використовувати для перевіркищо завгодно: гарантовано знайдете стосунки, не важливо. Більше того, як зазначалося раніше, симетричні ролі "двох баз даних" вказують на те, що або можна вибрати як "x", а іншу як "y", що призводить до двох можливих результатів GWR, які гарантовано відрізняються.

Ось локально зважена гладкість одних і тих самих даних, повертаючи ролі x і y. Порівняйте це з попереднім сюжетом: зауважте, наскільки крутішим є загальний підхід і чим він відрізняється в деталях.

Низький рівень 2

Для встановлення того, що дві бази даних надають однакову інформацію, або для оцінки їх відносного зміщення чи відносної точності, потрібні різні методи. Вибір методики залежить від статистичних властивостей даних та мети перевірки. Як приклад, бази даних хімічних вимірювань, як правило, порівнюють за допомогою методів калібрування .

Інтерпретація Я Морана

Важко сказати, що означає "Я Морана для моделі GWR". Я здогадуюсь, що статистику Морана I, можливо, було обчислено для залишків розрахунку GWR. (Залишки - це різниці між фактичними та пристосованими значеннями.) Моран І є глобальною мірою просторової кореляції. Якщо вона невелика, це говорить про те, що варіації між значеннями y та GWR-пристосунками від значень x мають незначну просторову кореляцію або взагалі не мають. Коли GWR "налаштований" на дані (це передбачає вирішення питання про те, що насправді є "сусідом" будь-якої точки), слід очікувати низької просторової кореляції в залишках, оскільки GWR (неявно) використовує будь-яку просторову кореляцію між x та y значення в його алгоритмі.


Отже, у GWR ви сказали, що повернення змінних дає різні результати, але те, що дає більш високий залишковий квадрат, чи не означає це, що він демонструє міцніші зв’язки між цими двома?
Sam007

Сем, низький залишковий квадрат сам по собі не вказує на міцніші стосунки. Зокрема, коли ви перетворюєте ролі x і y, ви навіть не можете порівнювати залишкові квадрати - вони часто знаходяться в різних одиницях. (Наприклад, одна може бути квадратною температурою, а інша може бути квадратом кількості опадів: як сказати, який нижчий?) Ви завжди можете зменшити залишковий квадрат, включивши в модель більше параметрів, навіть якщо вони безглузді. : занадто далеко в цьому напрямку називається "надмірне оснащення". У деякому сенсі GWR з коротким просторовим діапазоном є формою надмірного оснащення.
whuber

2
Ви можете думати про R-квадрат, Сем: це співвідношення. (Я зрозумів, що "залишковий квадрат" - це саме те, що написано. Сума квадратів залишків. Більшість програмного забезпечення статистики повідомляє про цю статистику разом із значеннями R-квадрата.) Але все ж небезпечно і зазвичай неправильно порівнювати різні моделі (такі як y у відношенні x проти x у y) у вигляді R-квадрата: див. stats.stackexchange.com/questions/13314 . Оскільки GWR є дослідницьким, він відмінно підходить для пошуку моделей та гіпотезування взаємозв'язків, але (як це зазвичай практикується у будь-якому випадку) він непридатний для обґрунтування претензій.
whuber

1
ЯК це була насправді вся статистика. Насправді причина, що мені важко, - це те, що у мене дуже слабкий досвід статистики, тому я покладаюся виключно на результати моделей, не розуміючи, що вони точно означають. Більшість речей на R2 перейшли через мою голову. Чи можете ви запропонувати книгу хороших початківців, щоб розпочати мене та створити свій фундамент у статистиці?
Sam007


3

Rsquared не слід використовувати для порівняння моделей. Використовуйте значення likihood журналу або AIC.

Якщо ваші залишки в GWR випадкові, або я думаю, що вони здаються випадковими (не статистично значущими), ніж у вас може бути визначена модель. Принаймні, це говорить про те, що у вас немає співвіднесених залишків, і ви повинні припустити, що у вас немає жодних пропущених змінних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.