Розмір вибірки для логістичної регресії?


26

Я хочу зробити логістичну модель зі своїх даних опитування. Це невелике опитування чотирьох житлових колоній, в якому було опитано лише 154 респонденти. Моя залежна змінна - "задовільний перехід до роботи". Я виявив, що з 154 респондентів 73 сказали, що вони задовільно перейшли на роботу, а решта - не. Тож залежна змінна має бінарний характер, і я вирішив застосувати логістичну регресію. У мене є сім незалежних змінних (три безперервні та чотири номінальні). Одне керівництво передбачає, що має бути 10 випадків для кожної прогнозної / незалежної змінної (Agresti, 2007). Виходячи з цього керівництва, я вважаю, що нормально вести логістичну регресію.

Чи правий я? Якщо ні, будь ласка, дайте мені знати, як визначити кількість незалежних змінних?


3
Я ніколи насправді не розумів правила, що говорить "10 випадків для кожного прогноктора" (і, на жаль, я не маю доступу до книги, написаної "Агресті"). Що я маю на увазі: якщо у мене є 100 суб'єктів, з яких 10 - це випадки ( 1і) і 90 - не випадки (випадки 0), то в цьому правилі написано "включити лише 1 провісника". Але що робити, якщо я моделюю 0'' замість 1'', а тоді я беру зворотну оцінку коефіцієнта шансів? Чи дозволено мені включити 9 предикторів? Це для мене немає сенсу.
boscovich

Шановна Андреа, я сказала те саме, що і ти. Із 154 респондентів є 73 випадки (1 та решта 0). Не могли б ви кинути трохи світла на моє запитання. Дякую!
Braj-Stat

4
У коментарі я прочитав, що треба дивитись на мінімум кількості подій та не подій. Отже, у прикладі 10/100 ви опиняєтесь з одним передбачувачем незалежно від того, як його кодуєте.
psj

@psj, це звучить розумно. У вас є посилання?
боскович

Відповіді:


25

Тут є кілька питань.

Як правило, ми хочемо визначити мінімальний розмір вибірки, щоб досягти мінімально прийнятного рівня статистичної потужності . Необхідний розмір вибірки - це функція від кількох факторів, насамперед від величини ефекту, який ви хочете мати змогу відрізнити від 0 (або будь-якого нуля, який ви використовуєте, але 0 найпоширеніший), і мінімальної ймовірності отримання ефекту від вас хочу мати. Працюючи з цієї точки зору, розмір вибірки визначається за допомогою аналізу потужності.

Інший розгляд - стабільність вашої моделі (як зазначає @cbeleites). В основному, оскільки відношення параметрів, оцінених до кількості даних, наближається до 1, ваша модель стане насиченою і обов'язково буде перевантаженою (якщо насправді в системі немає випадковості). З цієї точки зору походить правило відношення 1 до 10. Зауважте, що достатня потужність, як правило, покриватиме це питання щодо вас, але не навпаки.

Правило від 1 до 10 походить із світу лінійної регресії, і важливо визнати, що логістична регресія має додаткові складності. Одне питання полягає в тому, що логістична регресія найкраще працює тоді, коли відсотки 1 і 0 дорівнюють приблизно 50% / 50% (як @andrea та @psj обговорюють у коментарях вище). Ще одне питання, яке має хвилюватись, - це розлука . Тобто, ви не хочете, щоб усі ваші 1 були зібрані на одній крайності незалежної змінної (або якоїсь їх комбінації), а всі 0 в іншій крайності. Хоча це здасться гарною ситуацією, оскільки це спростило б ідеальне прогнозування, воно фактично змушує процес оцінки параметрів підірватись. (@Scortchi чудово обговорює, як боротися з розділенням у логістичній регресії тут:Як боротися з ідеальним розділенням при логістичній регресії? ) Якщо більше IV, це стає більш імовірним, навіть якщо справжні величини ефектів залишаються постійними, і особливо якщо ваші відповіді не збалансовані. Таким чином, вам легко знадобиться більше 10 даних на IV.

Останнє питання з цим правилом полягає в тому, що він передбачає, що ваші IV є ортогональними . Це розумно для розроблених експериментів, але при спостережувальних дослідженнях, таких як ваш, ваші ІV майже ніколи не будуть приблизно ортогональними. Існують стратегії вирішення цієї ситуації (наприклад, комбінування або відміна IV, проведення аналізу основних компонентів спочатку тощо), але якщо це не буде вирішено (що є загальним), вам знадобиться більше даних.

Тож розумне питання: а яким повинен бути ваш мінімальний N та / або чи достатній розмір вибірки? Для вирішення цього питання я пропоную використовувати методи @cbeleites обговорює; покладаючись на правило від 1 до 10, буде недостатньо.


6
Чи можете ви надати посилання на твердження "Одне питання полягає в тому, що логістична регресія найкраще працює, коли відсотки 1 і 0 приблизно становлять 50% / 50%"? Я сам про це цікавився, оскільки у мене є набір даних, який дуже далекий від 50/50, і мені цікаво про наслідки. (вибачте, що воскресив нитку)
Тревор,

3
Я не бачу жодних проблем із відновленням старої нитки, коли це доречно, @Trevor. Я думаю, що те, що ти шукаєш, - це щось, що відповідає цій приємній відповіді сполученим попереднім: робить-не-збалансований-зразок-питання-коли-робиш-логістичний-регресія .
gung - Відновіть Моніку

2
+1 до питання Тревора. Я вважаю, що логістична регресія буде надалі отримувати користь від нових даних, навіть якщо ці дані мають той самий випадок (незважаючи на зменшення прибутку). Це насправді щось, що мене турбує щодо таких технологій машинного навчання, як випадкові ліси, - що вони можуть погіршитися, додавши більш релевантні дані про навчання. Можливо, є момент, коли логістична регресія порушиться через чисельні міркування, якби дисбаланс став занадто сильним. Було б цікаво дізнатися більше про це.
Бен Огорек

+1, можливо, це має на увазі вашу відповідь. Я не впевнений, але мені цікаво, як це працює для категоричних змінних з різними рівнями? Було б запропоновано мати 10 спостережень на рівні?
baxx

1
Це правило, @baxx, але так, щоб зробити більше, ніж просто оцінити відсотки, вам знадобиться принаймні 45.
gung - Відновіть Моніку

16

Зазвичай я використовую правило 15: 1 (відношення хв (події, не події) до кількості параметрів- кандидатів у моделі). В останніх роботах було встановлено, що для більш жорсткої перевірки потрібно 20: 1. Більше інформації можна знайти в моїх роздаткових документах, пов’язаних з http://biostat.mc.vanderbilt.edu/rms , зокрема аргумент для мінімального розміру вибірки - 96 для того, щоб оцінити перехоплення. Але вимога до розміру вибірки є більш нюансованою, і ще більш пізній документ вирішує це більш всебічно.


14

Зазвичай, недостатньо мало випадків. складність моделі (кількість параметрів) означає, що моделі нестабільні . Тож якщо ви хочете дізнатися, чи відповідає норма розміру / складності моделі, перевірте, чи ви отримаєте досить стабільну модель.

Існують (принаймні) два види нестабільності:

  1. Параметри моделі сильно різняться, лише незначні зміни в навчальних даних.

  2. Ці передбачення (для того ж випадок) моделі навчених з незначними змінами в навчальних даних різняться.

Ви можете виміряти 1., подивившись, наскільки ваші коефіцієнти моделі змінюються, якщо дані тренувань трохи збурені. Відповідна група моделей може бути розрахована, наприклад, під час процедур завантаження або (повторної) перехресної перевірки.

Для деяких типів моделей або проблем різні параметри не передбачають різного прогнозування. Ви можете безпосередньо перевірити нестабільність 2., переглянувши варіації прогнозів для того ж випадку (незалежно від того, правильні вони чи ні), обчислені під час перевірки поза завантаженням або ітераційної перехресної перевірки.


5

Суворих правил немає, але ви можете включати всі незалежні змінні, якщо номінальні змінні не мають занадто багато категорій. Вам потрібна одна "бета" для всіх, крім одного класу для кожної номінальної змінної. Отже, якщо номінальною змінною було сказано "область роботи", а у вас 30 областей, вам знадобиться 29 бета.

Один із способів подолати цю проблему - це регуляризувати бета-версію - або штрафувати за великі коефіцієнти. Це допомагає переконатися, що модель не переповнює дані. Регуляризація L2 і L1 - популярний вибір.

Ще одне питання, яке слід врахувати, - наскільки репрезентативним є ваш зразок. Яке населення ви хочете зробити висновок? чи є у вас різні типи людей у ​​вибірці, що є у населення? буде складно зробити точний висновок, якщо у вашій вибірці є "дірки" (наприклад, у вибірці немає жінок віком 35-50 років або працівників, які не мають високого доходу тощо)


4

Ось фактична відповідь від веб-сайту MedCalc, про яку писав користувач41466

http://www.medcalc.org/manual/logistic_regression.php

Міркування щодо розміру вибірки

Розрахунок розміру вибірки для логістичної регресії є складною проблемою, але заснований на роботі Peduzzi et al. (1996) можна запропонувати наступне керівництво щодо мінімальної кількості випадків, які слід включити у ваше дослідження. Нехай p - найменша частка частки від’ємних чи позитивних випадків у сукупності та k кількість коваріатів (кількість незалежних змінних), тоді мінімальна кількість випадків, яку слід включити, становить: N = 10 к / р Наприклад: ви необхідно включити в модель 3 коваріатів, а частка позитивних випадків у популяції становить 0,20 (20%). Мінімальна кількість необхідних випадків становить N = 10 x 3 / 0.20 = 150 Якщо отримане число менше 100, слід збільшити його до 100, як запропонував Лонг (1997).

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Симуляційне дослідження кількості подій на змінну в аналізі логістичного регресії. Журнал клінічної епідеміології 49: 1373-1379.


Тож це ті самі 10 випадків на незалежну змінну (з підлогою)
seanv507

1

Результати будь-якої логістичної моделі, кількість спостережень на незалежну змінну, що становить щонайменше від п'яти до дев'яти, є надійними, особливо, якщо результати є статистично значущими (Vittinghoff & McCulloch, 2007).

Віттінгфф, Е., і Маккаллох, CE 2007. Розслаблення правила десяти подій на змінну в логістичній та регресії Кокса. Американський журнал епідеміології, 165 (6): 710–718.


Зауважте, що йдеться не про "кількість спостережень на незалежну змінну", а про кількість "подій". Для логістичної регресії кількість "подій" - це кількість випадків у найменш частому з двох класів результатів. Це буде не більше ніж 1/2 від загальної кількості спостережень, а в деяких додатках набагато нижча за це.
EdM
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.