Мінімальна кількість спостережень для множинної лінійної регресії


12

Я роблю множинні лінійні регресії. У мене 21 спостереження та 5 змінних. Моя мета - просто знайти співвідношення між змінними

  1. Чи виставлено моїх даних для багаторазової регресії?
  2. Результат t-тесту показав, що 3 моїх змінних не є істотними. Чи потрібно мені знову робити регресію зі значущими змінними (або моєї першої регресії достатньо для отримання висновку)? Моя кореляційна матриця така

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 і var 2 є продовжуваними змінними, а var 3 до 5are категоричними змінними, і y - моя залежна змінна.

Слід зазначити, що важлива змінна, яка розглядається в літературі як найвпливовіший чинник моєї залежної змінної, також не є серед моїх змінних регресії через обмеження моїх даних. Чи все ж є сенс робити регресію без цієї важливої ​​змінної?

ось мій інтервал довіри

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

Відповіді:


17

Загальне правило (засноване на матеріалах у книзі Френка Гаррела « Стратегії моделювання регресії» ) полягає в тому, що якщо ви очікуєте, що зможете виявити ефекти розумного розміру з розумною потужністю , вам потрібно 10-20 спостережень за розрахунковим параметром. Харрелл обговорює безліч варіантів "зменшення розмірів" (зменшення кількості коваріатів до більш розумного розміру), наприклад, PCA, але найголовніше, що для впевненості в зменшенні результатів необхідно зробити не дивлячись на змінну відповідей . Здійснення регресії знову лише за суттєвими змінними, як ви пропонуєте вище, майже у кожному випадку є поганою ідеєю.

Однак, оскільки ви застрягли з набором даних і набором коваріатів, який вас цікавить, я не думаю, що керувати багаторазовою регресією таким чином по суті є неправильним. Я думаю, що найкраще було б прийняти результати такими, якими вони є, від повної моделі (не забудьте подивитися на точкові оцінки та довірчі інтервали, щоб побачити, чи оцінюються значні наслідки як "великі" в деяких реальних умовах. світовий сенс, а також те, чи дійсно несуттєві наслідки менші, ніж значні наслідки чи ні).

Що стосується того, чи є сенс робити аналіз без того прогноктора, який вважає вашим полем: я не знаю. Це залежить від того, які умовиводи ви хочете зробити на основі моделі. У вузькому розумінні модель регресії все ще добре визначена ("які граничні наслідки цих прогнокторів на цю відповідь?"), Але хтось у вашій галузі може цілком справедливо сказати, що аналіз просто не має сенсу. Це трохи допомогло б, якби ви знали, що у вас є провідники, які не пов'язані з відомим провісником (яким би він не був), або що відомий предиктор є постійним або майже постійним для ваших даних: тоді ви, принаймні, можете сказати, що щось інше, ніж відомий предиктор, впливає на реакцію.


Дякую за коментар, але я не розумію, у чому сенс перевірки інтервалу довіри?
піднявся

Оскільки Бен відповів за Френка, я відповім за Бена, і він може мене виправити, якщо він мав на увазі щось інше. Бен пропонує jsut використовувати повну модель. Тоді ви, принаймні, знаєте, що ви не залишили важливу змінну з безлічі 5. Проблема з накладанням може зашкодити передбаченню, але принаймні у вас є довірчі інтервали для параметрів, і ви можете отримати довірчі інтервали для прогнозування. Я думаю, що це спрацює нормально, якщо у вас є проблема колінеарності та довірчі інтервали параметрів, щоб ви могли знати, чи може бути значення параметра 0.
Майкл Р. Черник

Якщо в моделі все ще відсутні імпентантні змінні, прогнозування може бути непоганим, і оцінка точності прогнозування на основі даних даних може бути помилковою. Турбуйтеся про неправильну специфікацію моделі та завжди перевіряйте залишки. Френк Харрелл є активним учасником цього сайту. Тож я сподіваюся, що це питання приверне його увагу, і ми можемо почути його безпосередньо.
Майкл Р. Черник

Ви завжди можете пропускати важливі змінні, і ви дійсно ніколи не можете знати ... Я запропонував переглянути інтервали довіри, оскільки просто запитати, чи є змінна значущою при чи ні, втрачає багато інформації. Один із сценаріїв полягав би в тому, що всі ваші параметри мають приблизно однакову оцінну величину ефекту, але їх невизначеність змінюється настільки, що деякі є значними, а інші - ні. Ви точно не хочете робити висновок про те, що "змінні A і B важливі, змінні C, D і E не є". КІ нададуть вам цю інформацію. p<0,05
Бен Болкер

З обговорень, які я думаю, через відсутність достатнього спостереження та відсутність найважливішої незалежної змінної у моєму наборі даних я повинен зробити висновок: 1-Значущі змінні не є змінною, яка пройшла t-тест. Найважливішим є той, який проходить t-тест, і його довірчий інтервал не включає 0. 2-Нормальність залишків повинна перевірятися. 3-Матриця кореляції повинна бути перевірена.
піднявся

2

Відповідь на загальне запитання полягає в тому, що це залежить від багатьох факторів, головним з яких є (1) кількість коваріатів (2) дисперсія оцінок та залишків. З невеликим зразком у вас не так багато можливостей, щоб виявити різницю від 0. Тож я би роздивився оціночну дисперсію параметрів регресії. З мого досвіду регресії 21 спостереження з 5 змінними недостатньо даних для виключення змінних. Тож я б не настільки швидко викинув змінні і не надто захопився тими, які здаються значущими. Найкраща відповідь - чекати, поки у вас буде набагато більше даних. Іноді це легко сказати, але важко зробити. Я хотів би поглянути на ступінчату регресію, регрес вперед і назад, просто щоб побачити, які змінні будуть обрані. Якщо коваріати сильно співвідносяться, це може відображати дуже різні набори змінних. Завантажте процедуру вибору моделі, яка буде виявляти чутливість змінного вибору до змін у даних. Ви повинні обчислити кореляційну матрицю для коваріатів. Можливо, Френк Харрелл зазвучить на цьому. Він справжній експерт із змінного вибору. Я думаю, що він хоча б погодився зі мною, що не слід вибирати остаточну модель, що базується виключно на цих 21 точці даних.


Дякуємо за вашу пропозицію. Я додав свою кореляційну матрицю. Чи вважаєте ви, що за допомогою цієї кореляційної матриці регресія розумна? Просто підкресліть, що я не можу збирати більше даних, а також не хочу моделювати чи прогнозувати. Просто я хочу знайти будь-яке можливе відношення між незалежними змінними та залежною змінною.
піднявся

Кореляційна матриця існує, щоб дати вам деяке уявлення про колінеарність. Оцінки, ймовірно, матимуть великі розбіжності, тому статична значимість не повинна бути зосереджена. Ypu міг би переглянути регресійну діагностику для колінеарності. Це може допомогти. Але я б рекомендував переглянути різні моделі підмножини, щоб побачити, як змінюється відповідність і які комбінації змінних здаються добре і погано діють. Я дійсно думаю, що завантаження даних покаже вам щось про стабільність вибору предикторів.
Майкл Р. Черник

1
Але нічого не компенсує брак даних. Я думаю, ви просто хочете дізнатися, чи є одна чи дві змінні, які, здається, стоять головою плечей над рештою. Але ви можете ніт знайти щось.
Майкл Р. Черник

Що ми маємо на увазі під коваріатами? Скажімо, у нас є якась змінна предикторах, то, скажімо, х2вважати окремим коваріатом? Як щодох3, х4і т. д. Оскільки між цими прогнозами існує деяка кореляція, імовірно, їх розрахункові коефіцієнти "варті" менше 1 ступеня свободи. А як щодо скажімо, регресійних сплайнів чи інших локальних регресій: чи маємо ми враховувати той факт, що для побудови компонентів використовується лише підмножина спостережень? І якщо ми використовуємо ядро, щоб застосовувати ваги до прогнозів, чи впливає це на ефективну кількість спостережень?
Збентежений
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.