Чи можна ігнорувати коефіцієнти для несуттєвих рівнів факторів у лінійній моделі?


15

Після пошуку роз’яснень щодо коефіцієнтів лінійної моделі тут у мене з’являється додаткове запитання щодо не-значущого (високого значення p) для коефіцієнтів рівнів факторів.

Приклад: Якщо моя лінійна модель включає коефіцієнт з 10 рівнями, і лише 3 з цих рівнів мають значні значення p, пов'язані з ними, при використанні моделі для прогнозування Y я можу вибрати, щоб не включати термін коефіцієнта, якщо суб'єкт потрапляє в один з рівень без знаків?

Більш різко, чи було б неправильним об'єднати 7 несуттєвих рівнів на один рівень та повторно проаналізувати?


2
Що ж, ви можете отримати упереджене висновок, зробивши це - наприклад, якщо ви формуєте інтервали передбачення, ймовірність покриття, ймовірно, буде неправильною для людей на будь-якому з 7 незначних рівнів.
Макрос

1
Тут ви отримали кілька хороших відповідей, але вас також може зацікавити, чому недоцільно скидати фактори з високими значеннями р. Варто зазначити, що це логічно еквівалентно процедурі автоматичного вибору моделі, навіть якщо ви це робите самі, замість того, щоб комп'ютер робив це за вас. Читання цього питання та запропонованих відповідей може допомогти зрозуміти, чому ці речі справжні.
gung - Відновіть Моніку

1
Цей Q має точний дублікат з листопада 2012 року: stats.stackexchange.com/questions/18745/… . Там також є трохи інформації, що провокує думку.
rolando2

2
Це таке важливе питання, і все ж немає відповіді, що підтверджувала б аргумент теорією. На сьогодні це лише думки. Навіть книги, пов'язані в одному з відповідей (який висновок відрізняється від інших відповідей), не містять посилань. Оскільки це стоїть, я не довіряю жодному з них, і тому я б краще нічого не робив (тобто зберігав усі категорії / фактори).
luchonacho

Відповіді:


13

Якщо ви вводите змінну передбачувача з декількома рівнями, ви або вводите змінну, або ні, ви не можете вибирати та вибирати рівні. Можливо, ви хочете реструктурувати рівні вашої змінної передбачувача, щоб зменшити кількість рівнів (якщо це має сенс у контексті вашого аналізу.) Однак я не впевнений, що це призведе до певного виводу статистичної недійсності, якщо ви руйнуються рівні, оскільки ви бачите, що вони не суттєві.

pppα>.0001


(Виправлено мою друкарню зі значенням p.) Тут добре. Таким чином, руйнування рівнів, за умови, що воно базується на якійсь реальній та логічній причині, виправданій у контексті дослідження (що також може трапитися, щоб розібрати їх вздовж розбиття значущості), є розумним, але не просто збивати їх довільно, виходячи з їх значущості . Зрозумів.
Trees4theForest

15

@ Еллі відповідь хороша.

Якщо ви вводите змінну з кількома рівнями, вам потрібно зберегти всі ці рівні в своєму аналізі. Вибір та вибір на основі рівня значущості змістить ваші результати та зробить дуже дивні речі вашим висновкам, навіть якщо якимось дивом вашим оцінкам вдасться залишитися однаковим, оскільки у вас з'являться наявні дірки у ваших оцінених ефектах на різних рівнях змінна.

Я б розглядав ваші оцінки для кожного рівня прогноктора графічно. Ви бачите тенденцію, коли ви зростаєте, або це нестабільно?

Взагалі кажучи, я також проти перекодування змінних на основі статистичних тестів - або суто на статистичних моментах. Розділення у вашій змінній повинні базуватись на чомусь більш твердому - логічно осмисленому межі, польовому інтересі до певної точки переходу тощо.


8

Розкриваючи два хороших відповіді, які ви вже отримали, давайте розглянемо це суттєво. Припустимо, ваша залежна змінна - (скажімо) дохід, а ваша незалежна змінна - (скажімо) етнічна приналежність, з рівнями, за визначеннями перепису (Білий, Чорний / Афр. Ам., Ам. Індіанець / штат Аляска, корінний житель, азіатський, корінний Гавай / Пак Ісландський, інші та багаторасові). Скажімо, ви манекен кодуєте це, коли Біла є еталонною категорією, і ви отримаєте

Янcоме=б0+б1БАА+б2АЯАN+б3АS+б4NНПЯ+б5О+б6МR

Якщо ви робите це дослідження в Нью-Йорку, ви, мабуть, отримаєте дуже мало корінних гавайців / острівців Тихого океану. Ви можете вирішити включити їх (якщо такі є) з іншими. Однак ви не можете використовувати повне рівняння і просто не включати цей коефіцієнт. Тоді перехоплення буде помилковим, а також будь-які прогнозовані значення доходу.

Але як слід поєднувати категорії?

Як казали інші, це має сенс .


4

Дати іншу думку: чому б не включити його як випадковий ефект? Це повинно штрафувати ці рівні зі слабкою підтримкою та переконатися, що розмір ефекту мінімальний. Таким чином, ви можете втримати їх усіх, не турбуючись про отримання дурних прогнозів.

І так, це більше мотивоване з байєсівського погляду на випадкові ефекти, ніж весь погляд "вибірки всіх можливих рівнів" на випадкові ефекти.


0

Мені також було цікаво, чи можу я поєднати неістотні категорії з референтною категорією. Наступні твердження у книзі "Обмін даними для бізнес-аналітики: поняття, методи та програми в Microsoft Office Excel® з XLMiner®, 2-е видання Галіта Шмулі, Нітін Р. Патель, Пітер К. Брюс", p87-89 (Dimension Розділ скорочення) ( Результат пошуку Google ), схоже, підтримує друге речення відповіді @ Еллі:

  • "Встановлені регресійні моделі також можуть бути використані для подальшої комбінації подібних категорій: категорії, що мають коефіцієнти, які не є статистично значущими (тобто мають високе p-значення), можуть поєднуватися з референтною категорією, оскільки їх відмінність від еталонної категорії, схоже, не має істотний вплив на вихідну змінну "
  • "Категорії, які мають однакові значення коефіцієнта (і однакові ознаки), часто можна комбінувати, оскільки їх вплив на змінну виводу подібний"

Однак я планую перевірити з експертами з питань тематики, чи поєднання категорій має логічний сенс (як випливає з попередніх відповідей / коментарів, наприклад, @Fomite, @gung).


Ця відповідь суперечить іншим відповідям тут.
kjetil b halvorsen
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.