Я журнал перетворив свою залежну змінну, чи можу я використовувати нормальний розподіл GLM з функцією зв'язку LOG?


10

У мене виникає питання щодо узагальнених лінійних моделей (GLM). Моя залежна змінна (DV) є безперервною і не нормальною. Тому я переклав її (все ще не нормально, але покращив).

Я хочу співвідносити DV з двома категоричними змінними та однією безперервною коефіцієнтом. Для цього я хочу провести GLM (я використовую SPSS), але я не знаю, як прийняти рішення щодо розподілу та функції, яку вибрати.

Я провів непараметричний тест Левене і маю однорідність дисперсій, тому я схильний використовувати нормальний розподіл. Я прочитав, що для лінійної регресії дані не повинні бути нормальними, як це зроблено. Отже, я надрукував стандартизовані залишки Пірсона та передбачувані значення для лінійного предиктора з кожного GLM окремо (нормальна функція ідентичності GLM та нормальна функція журналу). Я провів тести на нормальність (гістограма та Шапіро-Вілк) і побудував залишки щодо передбачуваних значень (для перевірки випадковості та дисперсії) для обох індивідуально. Залишки функції ідентичності не є нормальними, але залишки функції журналу є нормальними. Я схильний вибирати нормальне з функцією зв'язку каналів, тому що залишки Пірсона зазвичай розподіляються.

Отже, мої запитання:

  • Чи можу я використовувати нормальний розподіл GLM з функцією зв'язку LOG на DV, який уже перетворений в журнал?
  • Чи достатньо тесту на дисперсію на однорідність для обгрунтування нормального розподілу?
  • Чи правильна процедура залишкової перевірки для обґрунтування вибору моделі функції зв'язку?

Зображення розподілу DV зліва та залишків від нормального GLM з функцією зв’язку журналу справа.

Розподіл DV зліва та залишки від нормального GLM справа


Не зовсім зрозуміло, що ви маєте на увазі під цим: " Отже, я порівняв залишки Пірсона від GLM з нормальною функцією ідентичності та нормальною функцією журналу ".
Glen_b -Встановити Моніку

Дякую за Ваш коментар Я мав на увазі, що я надрукував залишки та прогнозовані значення з кожного GLM (ідентифікатор та журнал) окремо і перевірив нормальність і побудував стандартизовані залишки Пірсона проти передбачуваних значень для кожної моделі окремо. Для функції ідентичності залишки не є нормальними, тоді як для функції журналу залишки є нормальними.
Вчений

Як графік стандартизованих залишків Пірсона проти передбачуваних значень вказує, чи є дані фактично нормальними?
Glen_b -Встановити Моніку

Я перевірив нормальність, побудувавши гістограму залишків і провівши Шапіро-Вілка (P> 0,05 для функції журналу). Потім я побудував залишки проти передбачуваних значень, щоб перевірити, чи вони розподілені випадковим чином, і перевірити дисперсію. (вибачте за те, що не сказали важливої ​​інформації, я вперше публікую повідомлення)
Вчений

Я здогадуюсь, що "функція ідентичності" є ковзанням гомофона тут для "функції щільності".
Нік Кокс

Відповіді:


7

Чи можу я використовувати нормальний розподіл GLM з функцією зв'язку LOG на DV, який уже перетворений в журнал?

Так; якщо припущення виконані в такому масштабі

Чи достатньо тесту на дисперсію на однорідність для обгрунтування нормального розподілу?

Чому рівність дисперсії передбачає нормальність?

Чи правильна процедура залишкової перевірки для обґрунтування вибору моделі функції зв'язку?

Ви повинні остерігатися використання як гістограми, так і корисності тестів на придатність, щоб перевірити відповідність своїх припущень:

1) Обережно використовуйте гістограму для оцінки нормальності. (Також дивіться тут )

Коротше кажучи, залежно від чогось такого простого, як невелика зміна у вашому виборі ширини біна або навіть просто розташування кордону біна, можна отримати зовсім інші враження від форми даних:

Дві гістограми залишків

Це дві гістограми одного і того ж набору даних. Використання декількох різних ширин бін може бути корисним, щоб дізнатись, чи враження це чутливе.

2) Обережно використовуйте тести на придатність для висновку, що припущення про нормальність є розумним. Офіційні тести гіпотез насправді не відповідають правильному питанню.

наприклад, дивіться посилання під пунктом 2. тут

Про дисперсію, про яку говорилося в деяких роботах, використовуючи подібні набори даних, "оскільки дистрибуції мали однорідні дисперсії, використовувався GLM з гауссовим розподілом". Якщо це неправильно, як я можу виправдати чи прийняти рішення про розподіл?

У звичайних обставинах питання не є "чи мої помилки (або умовні розподіли) є нормальними?" - їх не буде, нам навіть не потрібно перевіряти. Більш релевантним питанням є "наскільки погано впливає наявна ступінь ненормативності на мої висновки?"

Я пропоную оцінку щільності ядра або нормальну QQplot (графік залишків проти нормальних балів). Якщо розподіл виглядає досить нормально, вам мало про що турбуватися. Насправді, навіть коли це явно ненормально, це все ще може не мати великого значення, залежно від того, що ви хочете зробити (наприклад, нормальні інтервали прогнозування дійсно будуть покладатися на нормальність, але багато інших речей, як правило, працюють у великих розмірах вибірки )

Як не дивно, що на великих зразках нормальність стає загалом менш і менш вирішальною (крім ПІ, як згадувалося вище), але ваша здатність відкидати нормальність стає все більшою і більшою.

Редагувати: пункт про рівність дисперсії полягає в тому, що дійсно може впливати на ваші умовиводи, навіть при великих розмірах вибірки. Але ви, мабуть, не повинні оцінювати це і тестами гіпотез. Неправильне припущення про відхилення є проблемою незалежно від вашої припущеної дистрибуції.

Я читав, що масштабне відхилення повинно бути навколо Np для моделі для гарного прилягання?

Коли ви підходите до звичайної моделі, вона має параметр масштабу, і в цьому випадку масштабоване відхилення буде приблизно Np, навіть якщо ваш розподіл не є нормальним.

на ваш погляд, нормальний розподіл з посиланням на журнал - хороший вибір

У постійній відсутності знання про те, що ви вимірюєте, або для чого ви використовуєте висновок, я все ще не можу судити, чи можна запропонувати інший розподіл для GLM, ні наскільки важлива нормальність може бути для вашого висновку.

Однак, якщо ваші інші припущення також є розумними (лінійність та рівність дисперсій, принаймні, слід перевіряти, а потенційні джерела залежності враховувати), то в більшості випадків мені буде дуже зручно робити такі речі, як використання CI та виконання тестів на коефіцієнти чи контрасти - у тих залишків залишається лише дуже незначне враження, яке, навіть якщо це справжній ефект, не повинно суттєво впливати на такі умовиводи.

Коротше кажучи, вам слід добре.

(Хоча інша функція розподілу та зв’язку може зробити трохи кращу з точки зору придатності, лише в обмежених обставинах вони можуть мати більше сенсу.)


Знову дякую! Про дисперсію, про яку говорилося в деяких роботах, використовуючи подібні набори даних, "оскільки дистрибуції мали однорідні дисперсії, використовувався GLM з гауссовим розподілом". Якщо це неправильно, як я можу виправдати чи прийняти рішення про розподіл? Що стосується залишкового нормального розподілу, то це означає, що він є більш підходящим, правда? Я читав, що масштабне відхилення повинно бути навколо Np для моделі для гарного прилягання? Значення однакове як для GLM, так і навколо Np. Я також визначив найбільш підходящу модель в моделі за допомогою критеріїв AIC. Не впевнений, чи це ви мали на увазі.
Вчений

дивіться обговорення в моїх редакціях вище
Glen_b -Встановіть Моніку

Дякую @Glen_b за приємне пояснення. Гістограма, яку я також тестував за допомогою Шапіро-Вілка, не врахує це все? Я побудував на QQ графік очікуваних нормальних та спостережуваних залишкових значень Пірсона, а точки + - підходять до лінії, за винятком підказок, де вони йдуть трохи вгору. Це ви мали на увазі? Розподіл залишків виглядає нормально, тож я можу продовжувати? (навіть якщо зареєстрований DV не є звичайним) (я все ще читаю посилання, але хотів запитати це)
Вчений

1
" тому що нормальна ділянка QQ зазвичай розподіляється для цієї моделі? " ... Я можу сказати, що "QQ графік залишків говорить про те, що припущення про нормальність є розумним" або "залишки виглядають досить близькими до нормальних". Якщо ваша аудиторія очікує тестів на гіпотези, ви все одно можете процитувати її (але це не змінює факту, що вони не особливо корисні). " Проблема з набором даних полягає в тому, що в гістограмі DV " ... немає припущення про розподіл безумовного DV або будь-якого з IV.
Glen_b -Встановити Моніку

1
Дивіться додаткову дискусію внизу моєї відповіді. Вибачте, що не відповів раніше, але я спав. З іншого питання, чому я запитав, це те, що обидві моделі поділяють більшість своїх припущень, і так майже вся ця дискусія має відношення до цього питання - навіть якщо DV відрізняється. Це не зовсім та сама ситуація (і так має бути новим питанням), але це питання має бути пов'язане з нею, тому ви можете задавати питання в контексті цього обговорення, наприклад, чи є якісь різні або додаткові питання.
Glen_b -Встановити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.