Чи може лінійна регресія бути значною, якщо дані не є лінійними?


11

Я провів лінійну регресію, яка вийшла зі значним результатом, проте, коли я перевіряв графік розсіювання на лінійність, я не був впевнений, що дані лінійні.

Чи є інші способи перевірити на лінійність, не перевіряючи розсіювач?

Чи може лінійна регресія бути значною, якби вона не була лінійною?

[Відредаговано, щоб включити розсіювачі]

введіть тут опис зображення

введіть тут опис зображення

введіть тут опис зображення

введіть тут опис зображення


3
Тут може бути багато інтерпретацій питань і безліч відповідей (але в основному відповідь "так" у всіх випадках, і як ваш доказ результату це, безумовно, можливо у вашому випадку). Чи можете ви показати розсіювач? Тоді інші можуть зрозуміти, що ви маєте на увазі, якщо дані не є лінійними, і в якому сенсі значний результат виявився в будь-якому випадку.
Секст Емпірік

5
Дивіться stats.stackexchange.com/search?q=anscombe+quartet для класичного набору простих прикладів. На сайті stats.stackexchange.com/a/152034/919 я розмістив алгоритм, здатний будувати приклади, щоб відповідати майже будь-якій обставині, про яку ви можете придумати.
whuber

Звичайно, ігнорування нелінійності, навіть коли загальна тенденція є лінійною, може призвести до компрометованих висновків у застосуванні. Наприклад, якщо справжня залежність полягає в тому, що різко падає, а потім вирівнюється через , лінійна інтерпретація полягає в тому, що падає на деяку середню кількість над усіма значеннями , тоді як справжня залежність полягає в тому, що падає набагато різкіше значно більш вузький діапазон , і на решту діапазону більше чи менше не впливає. Лінійна інтерпретація була б поганою для ефектів клінічного лікування або для ефектів витрат на політику. X Y X Y X XYХYХYХХ
Олексій

Також: лінійна регресія не є істотною чи ні, але це скоріше тести, наприклад, , , , може бути значним чи ні, з певною мірою незалежності. H 0 : β x = c H 0 : F = c H 0 : R 2 = cН0:β0=cН0:βх=cН0:Ж=cН0:R2=c
Олексій

Дякую за відповіді та вибачення за повільну відповідь - я віддалився від технології! Я відредагував публікацію, щоб включити розсипи для тих значних регресій. Будь-яка порада щодо того, як діяти, буде дуже вдячна.
IntoTheBlue

Відповіді:


18

Монотонні нелінійні зв’язки майже завжди виявляться важливими при моделюванні як лінійних моделей. Якщо зв'язок нелінійний і не є монотонним, то це залежить від вибірки.

Прикладами монотонних зв’язків є логарифм і непарні сили, такі як . Прикладом немонотонних зв’язків є навіть сили і тригонометричні функції, такі як .y = x 3 y = x 2 y = sin xу=lnху=х3у=х2у=гріхх

Наприклад, якщо ваш зразок для , то змодельований, оскільки , ймовірно, буде значущим, див. Сюжет:y = sin x y xх[-1,1]у=гріххух

введіть тут опис зображення

Однак якщо ваш зразок знаходиться у , лінійне моделювання взагалі не буде працювати: х[0,π]введіть тут опис зображення


13
+1. Але зауважте, що правильний термін "монотонний". "Монотонне" означає нудне і нудне через повторення.
whuber

22
@whuber відредагував мою відповідь, але треба погодитися, що тьмяний і нудний порівняно з бурхливим і радіснимlnхгріхх
Aksakal

+1 Я також пропоную визначити, що означає монотонність.
Марк Уайт

Дякую, я оновив публікацію, щоб включити розсипи. Будь-яка порада щодо того, як діяти, буде дуже вдячна.
IntoTheBlue

Я не знаю, чи є тест на лінійність сам по собі. Ви можете додати терміни нелінійної регресії та перевірити їх значення, наприклад . (х-х¯)2
Аксакал

3

Так, Аксакал має рацію і лінійна регресія може бути істотною, якщо справжня залежність нелінійна. Лінійна регресія виявляє лінію, яка найкраще відповідає вашим даним і просто перевіряє, чи нахил значно відрізняється від 0.

Перш ніж спробувати знайти статистичний тест на нелінійність, я б запропонував задуматися над тим, що ви хочете спочатку моделювати. Чи очікуєте ви лінійного (нелінійного) зв’язку між вашими двома змінними? Що саме ви намагаєтесь розкрити? Якщо є сенс припустити, що існує нелінійна залежність, наприклад, між швидкістю автомобіля і гальмівним шляхом, то ви можете додати терміни в квадраті (або інші перетворення) вашої незалежної змінної.

Також візуальний огляд ваших даних (розсіювач) є дуже потужним методом і важливим першим кроком у вашому аналізі.


Майже я не отримав мого голосування, поки "тоді ви можете додавати квадратні терміни (або інші перетворення) вашої незалежної змінної". Квадратичне відношення так само довільне, як і лінійне відношення. Я думаю, що непараметричні регресії, які роблять набагато більш узагальнені припущення щодо функціональної форми відношення до (супроводжуються лінійною та / або нелінійною регресією, якщо це необхідно, якщо потрібні параметричні оцінки), або алгоритмічної підгонки кривої (наприклад, дробові поліноми), можливо, навіть перехід на максимальний підхід до коефіцієнта інформації для узагальнення поза рівними функціональними відносинами. YХ
Олексій

Також: Ласкаво просимо в резюме, Pawel!
Олексій

2
@Alexis Ти маєш рацію. Але додавання квадратичного терміна все ще є загальноприйнятою рекомендацією в деяких текстах як швидкий і брудний спосіб перевірити нелінійність (розуміння, що ніхто не пропонує це єдиний або навіть перший спосіб моделювання нелінійностей), тому я не зовсім так стурбований тим уривком.
whuber

+1 @whuber На жаль, я зіткнувся з багатьма дослідниками, студентами та викладачами, що додають квадратичний термін як першу перевірку за межами очного яблука на графік розкидання як "як перевірити на нелінійність", і негативний результат трактується як "лінійний достатній" ". (Квадратичні терміни дійсно можуть бути корисними, і я використовував їх у власних дослідженнях.) Я думаю, що моя думка щодо "швидкого та брудного" полягає в тому, що речі, які навчаються, як прості, стають суворістю для переважної більшості дослідників. .. Я думаю, непараметричні регресії приблизно такі ж «прості», як і лінійні та кращі інструменти для дослідження.
Олексій

@ Алексис Дякую Я думаю, ти мене зрозумів неправильно. Я не рекомендував додавати квадратичні терміни для перевірки на нелінійність, але точно можуть бути зроблені випадки для квадратних термінів (або інших перетворень. Економічні дані часто перетворюються на журнал). Я думаю, що слід розрізняти дослідницький та роз'яснювальний аналіз. Якщо є обґрунтовані підстави вважати співвідношення у квадраті, то це потрібно перевірити. Що ви пропонуєте, це більш дослідницький підхід.
Павло

-2

Я згоден з усім, що говорить Аксакал. Щодо першого питання, я думаю, що відповідь - кореляція. Кореляція вимірює ступінь лінійної залежності між наборами даних x і y.


2
у=lnх

@gung Так, я. Яке його твердження ви вважаєте неправильним? Дозвольте мені підказати, що я розумію, що означають слова лінійні та нелінійні, і що, як і у відповіді Аксакала, дуже легко знайти приклади змінних з точним та нелінійним співвідношенням. Тим не менш, кореляція є мірою лінійної залежності, а кореляція +/- 1 означає, що зв'язок дійсно лінійний. Будь-яка кореляція, менша за це, означає, що зв'язок (не зовсім) лінійний, але він може бути досить близьким.
meh

1
ОП "здійснила лінійну регресію, яка вийшла зі значним результатом", але розсіювач передбачав, що зв'язок не був лінійним. Кореляція, ймовірно, також була б істотною, насправді, якби регресія мала лише 1 X-змінну, р-значення від регресії & кореляція були б ідентичними. Але якби зв’язок не був лінійним, незважаючи на значну регресію, він все одно не був би лінійним, незважаючи на значну кореляцію. Таким чином, значна кореляція не є свідченням того, що взаємозв'язок лінійний.
gung - Відновити Моніку

1
r=1r=1r1

1
Це може здатись надто тонким або навіть нитковим, але (а) я погоджуюся, що кореляція - це спосіб вимірювання лінійності двозначних відносин - це, зрештою, математична теорема - але (б) як загальне судження, я сумніваюся, що це можна розглядати як будь-який більш ніж надзвичайно грубий спосіб оцінки нелінійності. Докази нелінійності можуть бути вражаючими в наборі даних з високою абсолютною кореляцією вибірки і повністю відсутні в наборі даних з невеликою абсолютною кореляцією. (cc @gung)
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.