Чи можу я використовувати нормальний розподіл GLM з функцією зв'язку LOG на DV, який уже перетворений в журнал?
Так; якщо припущення виконані в такому масштабі
Чи достатньо тесту на дисперсію на однорідність для обгрунтування нормального розподілу?
Чому рівність дисперсії передбачає нормальність?
Чи правильна процедура залишкової перевірки для обґрунтування вибору моделі функції зв'язку?
Ви повинні остерігатися використання як гістограми, так і корисності тестів на придатність, щоб перевірити відповідність своїх припущень:
1) Обережно використовуйте гістограму для оцінки нормальності. (Також дивіться тут )
Коротше кажучи, залежно від чогось такого простого, як невелика зміна у вашому виборі ширини біна або навіть просто розташування кордону біна, можна отримати зовсім інші враження від форми даних:
Це дві гістограми одного і того ж набору даних. Використання декількох різних ширин бін може бути корисним, щоб дізнатись, чи враження це чутливе.
2) Обережно використовуйте тести на придатність для висновку, що припущення про нормальність є розумним. Офіційні тести гіпотез насправді не відповідають правильному питанню.
наприклад, дивіться посилання під пунктом 2. тут
Про дисперсію, про яку говорилося в деяких роботах, використовуючи подібні набори даних, "оскільки дистрибуції мали однорідні дисперсії, використовувався GLM з гауссовим розподілом". Якщо це неправильно, як я можу виправдати чи прийняти рішення про розподіл?
У звичайних обставинах питання не є "чи мої помилки (або умовні розподіли) є нормальними?" - їх не буде, нам навіть не потрібно перевіряти. Більш релевантним питанням є "наскільки погано впливає наявна ступінь ненормативності на мої висновки?"
Я пропоную оцінку щільності ядра або нормальну QQplot (графік залишків проти нормальних балів). Якщо розподіл виглядає досить нормально, вам мало про що турбуватися. Насправді, навіть коли це явно ненормально, це все ще може не мати великого значення, залежно від того, що ви хочете зробити (наприклад, нормальні інтервали прогнозування дійсно будуть покладатися на нормальність, але багато інших речей, як правило, працюють у великих розмірах вибірки )
Як не дивно, що на великих зразках нормальність стає загалом менш і менш вирішальною (крім ПІ, як згадувалося вище), але ваша здатність відкидати нормальність стає все більшою і більшою.
Редагувати: пункт про рівність дисперсії полягає в тому, що дійсно може впливати на ваші умовиводи, навіть при великих розмірах вибірки. Але ви, мабуть, не повинні оцінювати це і тестами гіпотез. Неправильне припущення про відхилення є проблемою незалежно від вашої припущеної дистрибуції.
Я читав, що масштабне відхилення повинно бути навколо Np для моделі для гарного прилягання?
Коли ви підходите до звичайної моделі, вона має параметр масштабу, і в цьому випадку масштабоване відхилення буде приблизно Np, навіть якщо ваш розподіл не є нормальним.
на ваш погляд, нормальний розподіл з посиланням на журнал - хороший вибір
У постійній відсутності знання про те, що ви вимірюєте, або для чого ви використовуєте висновок, я все ще не можу судити, чи можна запропонувати інший розподіл для GLM, ні наскільки важлива нормальність може бути для вашого висновку.
Однак, якщо ваші інші припущення також є розумними (лінійність та рівність дисперсій, принаймні, слід перевіряти, а потенційні джерела залежності враховувати), то в більшості випадків мені буде дуже зручно робити такі речі, як використання CI та виконання тестів на коефіцієнти чи контрасти - у тих залишків залишається лише дуже незначне враження, яке, навіть якщо це справжній ефект, не повинно суттєво впливати на такі умовиводи.
Коротше кажучи, вам слід добре.
(Хоча інша функція розподілу та зв’язку може зробити трохи кращу з точки зору придатності, лише в обмежених обставинах вони можуть мати більше сенсу.)