Як мені здійснити регресію щодо ненормативних даних, які залишаються ненормальними при трансформації?


15

У мене є деякі дані (158 випадків), які були отримані з відповіді за шкалою Лікерта на 21 пункт анкети. Мені дуже хочеться / потрібно провести регресійний аналіз, щоб побачити, які елементи в анкеті прогнозують відповідь на загальний предмет (задоволення). Відповіді зазвичай не поширюються (згідно з тестами на KS), і я трансформував це всіма способами, про які я міг придумати (зворотний, log, log10, sqrt, квадрат), і він вперто відмовляється від нормального поширення. Залишковий сюжет виглядає всюди, тому я вважаю, що насправді не є законним робити лінійну регресію і робити вигляд, що вона веде себе нормально (це також не розподіл Пуассона). Я думаю, це тому, що відповіді дуже тісно згруповані (середнє значення становить 3,91, 95% ДІ 3,88 - 3,95).

Отже, я думаю, що мені або потрібен новий спосіб перетворення даних, або мені потрібна якась непараметрична регресія, але я не знаю жодного, що можу зробити в SPSS.


1
Розгляньте перетворення Box-Cox ( en.wikipedia.org/wiki/… ). Додавання залишкового сюжету до вашого питання може бути корисним.
М. Берк

3
Так, покажіть, будь ласка, свою ділянку залишків. можливо також qq сюжет.
Девід Маркс

5
Якщо ваші значення дискретні, особливо якщо вони зібрані одним кінцем, може не відбутися перетворення, яке зробить результат навіть приблизно нормальним. Але тести формальної гіпотези на нормальність не відповідають правильному питанню і не обумовлюють ваших інших процедур, які обумовлюються тим, чи відхиляєте ви нормальність більше не мати своїх номінальних властивостей.
Glen_b -Встановіть Моніку

1
Логістична регресія пропорційних шансів, ймовірно, була б розумним підходом до цього питання, але я не знаю, чи є в SPSS.
Бен Болкер

3
Я не переконаний, що регресія - це правильний підхід, а не через норми щодо нормальності. Ваші відповіді на анкету можуть бути навіть не кардинальними. Наприклад, якщо ви запитаєте хлопця «Чи щасливий ви?» І отримаєте відповідь 3, тоді як минулого місяця це було 4, чи це означає, що він на 25% менше щасливий? Швидше за все, ні. Отже, перш ніж навіть почати думати про нормальність, вам потрібно розібратися, чи маєте ви справу з кардинальними цифрами, а не просто порядковими. Існують спеціальні способи поводження з думками, такими як опитування, і регресія не є вибором за замовчуванням. Ви повинні показати, що це підходить спочатку
Aksakal

Відповіді:


32

Для регресії не потрібно вважати нормальні розподіли. Найменша регресія квадратів - це ОЦЕНКА СВІТОГО (найкращий лінійний, неупереджений оцінювач) незалежно від розподілів. Див. Теорему Гаусса-Маркова (наприклад, вікіпедія) Нормальне розподіл використовується лише для того, щоб показати, що оцінювач також є оцінкою максимальної ймовірності. Поширене непорозуміння, що OLS якось приймає нормально розподілені дані. Це не. Це набагато загальніше.


2
Це так правда. Багато людей часто ігнорують цей ФАКТ.
Репмат

погоджуюся з @Repmat. Я не впевнений, що коли-небудь проходив тест на нормальність ... але мої моделі працюють.
HEITZ

5

Замість того, щоб покладатися на тест на нормальність залишків, спробуйте оцінити нормальність з раціональним судженням. Тести на нормальність не говорять про те, що ваші дані є нормальними, лише що це не так. Але враховуючи, що дані є вибіркою, ви можете бути впевнені, що вони насправді не є нормальними без тесту. Вимога приблизно нормальна. Тест не може цього сказати. Тести також стають дуже чутливими при великих N або більш серйозно, відрізняються чутливістю до N. Ваш N знаходиться в тому діапазоні, коли чутливість починає зростати. Якщо ви кілька разів виконаєте наступне моделювання в R і подивитеся на графіки, то побачите, що тест на нормальність говорить про "не нормальне" для великої кількості нормальних розподілів.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Сподіваємось, пройшовши симуляції, ви зможете побачити, що тест на нормальність може легко відкинути досить нормальні дані і дані, отримані в звичайному розподілі, можуть виглядати досить далеко від нормальних. Якщо ви хочете побачити надзвичайну цінність, спробуйте n <- 1000. Усі розподіли виглядатимуть нормально, але все ж пройдуть тест приблизно з тією ж швидкістю, що і нижчі N значення. І навпаки, з низьким N розподілом, які проходять тест, може виглядати дуже далеко від норми.

Стандартна залишкова ділянка в SPSS не дуже корисна для оцінки нормальності. Ви можете побачити вигули, асортимент, хорошу форму і, можливо, навіть важелі. Але нормальність складно з цього вивести. Спробуйте наступне моделювання, порівнюючи гістограми, квантильно-кількісні нормальні графіки та залишкові графіки.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

Надзвичайно складно сказати нормальність, або багато чого іншого, з останнього сюжету, і тому не дуже страшно діагностувати нормальність.

Підсумовуючи це, зазвичай рекомендується не покладатися на тести на нормальність, а на діагностичні схеми залишків. Без цих сюжетів чи фактичних значень у вашому питанні комусь дуже важко дати точні поради щодо того, що потребують ваші дані щодо аналізу чи перетворення. Щоб отримати найкращу допомогу, надайте необроблені дані.


Привіт. Дякую всім за пропозиції. Я переглянув мої залишки як запропоновано та використовував синтаксис вище зі своїми змінними. Мої дані були не такими жахливо ненормальними, як я думав, тому я використовував свої параметричні лінійні регресії з набагато більшою впевненістю та чистою совістю! Знову дякую.
rachel S

4

По-перше, регресія OLS не передбачає припущень щодо даних, вона робить припущення про помилки, що оцінюються залишками.

По-друге, перетворення даних для пристосування до моделі є, на мою думку, неправильним підходом. Ви хочете, щоб ваша модель відповідала вашій проблемі, а не навпаки. За старих часів регресія OLS була "єдиною грою в місті" через повільні комп'ютери, але це вже не так.

По-третє, я не використовую SPSS, тому я не можу допомогти там, але я буду вражений, якби він не запропонував деяких форм нелінійної регресії. Деякі можливості - квантильна регресія, регресійні дерева та міцна регресія.

По-четверте, я трохи стурбований вашим твердженням:

Мені дуже хочеться / потрібно провести регресійний аналіз, щоб побачити, які пункти в анкеті прогнозують відповідь на загальний предмет (задоволення)

Якщо пункти підсумовували чи якось комбінували для створення загальної шкали, то регресія зовсім не є правильним підходом. Ви, мабуть, хочете факторного аналізу.


Ви припустили, що він може захотіти факторний аналіз, але чи не впливає також факторний аналіз, якщо дані не розповсюджуються нормально?
упорядкувати

Ви можете робити факторний аналіз даних, який не є навіть безперервним. Але це окрема дискусія - і це обговорювалося тут.
Пітер Флом - Відновіть Моніку

1
Привіт Пітер, я ціную твою експертизу і дуже ціную твою пораду. Дякуємо, що знайшли час для відповіді. Просто для уточнення, я знаю, що можна робити ФА щодо нерозподілених предметів (як і обговорення нормальності залишків). Мені було просто цікаво дізнатись (від когось із вашим досвідом), якщо ОП не потрапить у ту саму дилему. Але, я припускаю, ви вже відповіли :)
упорядкуйте

1

Загалом, існує два можливі підходи до вашої проблеми: той, який є обґрунтованим з теоретичної точки зору, але потенційно неможливим для реалізації на практиці, а другий є більш евристичним.

Теоретично оптимальним підходом (який, мабуть, насправді не вдасться використати, на жаль) є обчислення регресії шляхом повернення до прямого застосування так званого методу максимальної ймовірності. Зв'язок між максимальною оцінкою ймовірності (яка насправді є попередньою та більш фундаментальною математичною концепцією) та регресією звичайних найменших квадратів (OLS) (звичайний підхід, справедливий для конкретного, але надзвичайно поширеного випадку, коли змінні спостереження всі незалежно випадкові і нормально розподілені ) описаний у багатьох підручниках зі статистики; одне обговорення, яке мені особливо подобається, - це розділ 7.1 «Статистичний аналіз даних» Глена Коуана. У випадках, коли ваші змінні спостереження зазвичай не розподіляються,

У цьому випадку, оскільки ви, здається, не знаєте базового розподілу, який регулює ваші змінні спостереження (тобто єдине, що точно відомо, це те, що це точно не Гауссова, але не те, що є насправді), вищенаведений підхід переміг " не працювати для вас. Зазвичай, коли OLS не вдається або повертає шалений результат, це через занадто багато сторонніх очок. Точки зовнішньої форми, які насправді порушують припущення про нормально розподілених змінних спостереження, сприяють надто великій вазі придатності, тому що точки в OLS зважуються на квадрати їх відхилення від кривої регресії, а для залишків - це відхилення великий. Звичайний евристичний підхід у цьому випадку полягає у розробці певного змінення або модифікації OLS, що призводить до того, що внесок з інших точок стає знеціненим або знеціненим щодо базового методу OLS. У сукупності вони зазвичай відомі якміцна регресія . Список, який містить кілька прикладів конкретних надійних методів оцінки, які ви можете спробувати, можна знайти тут .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.