Діагональні прямі лінії в залишках проти встановлених значень ділянки для множинної регресії


11

За моїми даними я спостерігаю дивні закономірності в залишках: введіть тут опис зображення

[EDIT] Ось графіки часткової регресії для двох змінних:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Додано графік PP http://i.imgur.com/pCKFA.png

Здається, розподіл іде добре (див. Нижче), але я не маю жодного уявлення, звідки може бути ця пряма лінія. Будь-які ідеї? введіть тут опис зображення

[ОНОВЛЕННЯ 31.07]

Виявляється, ви були абсолютно праві, у мене були випадки, коли кількість ретвітів дійсно була 0, і ці ~ 15 випадків призводили до цих дивних залишкових зразків.

Залишки зараз виглядають набагато краще: http://i.imgur.com/XGas9.png

Я також включив часткові регресії з льосовою лінією. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


Чи можете ви також додати відповідну лінію, накреслену на оригінальних даних?
MånsT

Крім того, у підзаголовках фігур написано "співтовариство: аніме" та "спільнота: астрологія", що, мабуть, означає, що ці сюжети походять з різних наборів даних ...
MånsT

Я пам’ятаю, як бачив такий тип шаблонів у своїх залишках, коли мої залежні змінні є категоричними або «недостатньо безперервними».
Король

Я додав належний сюжет ПП та часткові сюжети двох IV
сюжетів

Відповіді:


23

Здається, що на деяких його піддіапазонах залежна змінна величина є постійною або точно лінійно залежить від предиктора. Маємо дві корельовані змінні, X і Y (Y залежить). Розлітається ліворуч.

введіть тут опис зображення

Повернемось, наприклад, до першої ("постійної") можливості. Перечитайте всі значення Y від найнижчого до -0,5 до одного значення -1 (див. Малюнок у центрі). Регрес Y на X та залишки ділянки розсіюються, тобто обертають центральну картину так, щоб лінія прогнозування була горизонтальною зараз. Чи нагадує це ваше зображення?


6
Це криміналістична статистика в кращих випадках! Великий +1.
Майкл Р. Черник

Виявляється, ви були абсолютно праві, у мене були випадки, коли кількість ретвітів дійсно була 0, і ці ~ 15 випадків призводили до цих дивних залишкових зразків. i.imgur.com/XGas9.png
plotti

4

Це не дивно, що ви не бачите шаблону в гістограмі, непарний малюнок охоплює зовсім небагато діапазону гістограми і являє собою лише кілька точок даних у кожному відрізку. Вам дійсно потрібно з’ясувати, які саме дані є і подивитися на них. Ви можете використовувати передбачувані значення та залишки, щоб знайти їх досить просто. Як тільки ви знайдете значення, починайте досліджувати, чому вони можуть бути особливими.

Сказавши це, ця особлива закономірність є лише особливою, оскільки вона довга. Якщо ви уважно подивитесь на свій залишковий сюжет і ваш квантильний сюжет, то побачите, що він повторюється, але це менші послідовності. Можливо, це справді просто аномалія. Або, можливо, це справді шаблон, який повторюється. Але вам доведеться знайти, де вони знаходяться в необроблених даних, і вивчити їх, щоб мати надію його зрозуміти взагалі.

Щоб допомогти вам трохи, квантильно-квантильний сюжет пропонує вам мати купу однакових залишків. Можливо, це може бути помилка кодування. Я можу генерувати щось подібне в R за допомогою ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Зверніть увагу на плоскі дві плоскі плями. Однак це здається складнішим, ніж це, тому що є сенс, що однакові залишки трапляються у ряді прогнозів.


3

Схоже, ви використовуєте R. Якщо це так, зверніть увагу , що ви можете визначити точки на діаграмі розсіювання з використанням ? Ідентифікувати . Я думаю, що тут відбувається кілька речей. По-перше, у вас дуже впливовий момент на сюжеті LN_RT_vol_in ~ LN_AT_vol_in(виділеного) приблизно в (.2, 1.5). Це, швидше за все, стандартизований залишок, який становить приблизно -3,7. Ефектом цієї точки буде вирівнювання лінії регресії, нахиливши її більш горизонтально, ніж різко вгору лінія, яку ви в іншому випадку отримали б. Ефект цього полягає в тому, що всі ваші залишки будуть повернуті проти годинникової стрілки щодо місця, де вони б інакше були розташовані в межах residual ~ predictedділянки (принаймні, якщо думати з точки зору цього коваріату та ігнорувати інший).

Тим не менше, очевидна пряма лінія залишків, яку ви бачите, все ще буде там, оскільки вони існують десь у тривимірній хмарі ваших вихідних даних. Їх, можливо, важко знайти в будь-якому з граничних сюжетів. Ви можете використовувати функцію identi () для допомоги, а також можете використовувати пакет rgl для створення динамічного 3D-розсіювача, який можна вільно обертати за допомогою миші. Однак зауважте, що прямі залишки прямолінійних значень нижче 0 у передбачуваному значенні та мають нижче 0 залишків (тобто вони нижче встановленої регресійної лінії); це дає велику підказку щодо того, де шукати. Подивившись знову на свою ділянкуLN_RT_vol_in ~ LN_AT_vol_in, Я думаю, я можу їх побачити. Нижній край хмари точок у цьому регіоні є досить прямим скупченням точок, що ведуть по діагоналі вниз та зліва приблизно від (-.01, -1.00). Я підозрюю, що це питання.

Іншими словами, залишки виглядають саме так, оскільки вони є таким чином десь у просторі даних. По суті, це пропонує @ttnphns, але я не думаю, що це абсолютно константа в будь-якому з вихідних розмірів - це константа в розмірності під кутом до первісних осей. Я також погоджуюся з @MichaelChernick, що ця очевидна прямота в залишковому сюжеті, ймовірно, нешкідлива, але що ваші дані насправді не дуже нормальні. Однак вони є дещо нормальними, і, здається, у вас є пристойна кількість даних, тому CLT може охопити вас, але ви, можливо, захочете завантажитися на будь-який випадок. Нарешті, я б потурбувався, що цей "чужий" рухає ваші результати; надійний підхід , ймовірно , заслуговує.


1
Чи можна це ваше твердження it's a constant in a dimension at an angle to your original axesпорівняти з моїм is exactly linearly dependent on the predictor(s), чи ви маєте на увазі щось інше?
ttnphns

@ttnphns, я пропустив ту частину вашої відповіді, коли прокинув її; Я бачив "константу" і бачив точки у вашому сюжеті, і це те, що я забрав. Так, "це константа в вимірі ..." логічно синонімічний w / "точно лінійно залежить ...". Тепер я розумію, що моя основна суть є значною мірою такою ж, як і ваша (+1), хоча, я думаю, деякі інші мої моменти (відносно яких дані, ймовірно, є винуватцем, стратегії R, стійкі підходи тощо), все ще сприяють дискусії.
gung - Відновити Моніку

Звичайно, ваша відповідь багато зробила для мене.
ttnphns

1

Я б не обов'язково говорив, що гістограма в порядку. Візуально накладені найкращі норми на гістограмі можуть бути оманливими, і ваш гістогорзм може бути чутливим до вибору ширини відростка. Графік нормальної ймовірності, схоже, вказує на великий відхід від нормального, і навіть дивлячись на гістограму, мені здається, незначне перекос (більша частота у [0, + 0,5] бін порівняно з [-0,5,0] бін) важкий куртоз (занадто велика частота в інтервалах [-4, -3.5] і [2.5, 3]).

Щодо шаблону, який ви бачите, він може бути результатом селективного вивчення розсіювача. Схоже, якщо ви полюєте ще на кілька, ви можете знайти ще дві-три лінії, майже паралельні тій, яку ви вибрали. Я думаю, ви занадто багато читаєте в цьому. Але ненормальність викликає справжнє занепокоєння. У вас є один дуже величезний чужак із залишком майже -4. Чи підходять ці залишки з мінімум квадратів? Я погоджуюсь, що це може бути приємно дивитись на пристосовану лінію на графіку розкидання даних.


Я додав часткові сюжети двох IV, щоб пролити більше світла на це
сюжет

1
Мені хотілося б побачити найосновніше - пристосовану лінію, що пробігає через розсіяний графік даних.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.