Тут є кілька питань.
Як правило, ми хочемо визначити мінімальний розмір вибірки, щоб досягти мінімально прийнятного рівня статистичної потужності . Необхідний розмір вибірки - це функція від кількох факторів, насамперед від величини ефекту, який ви хочете мати змогу відрізнити від 0 (або будь-якого нуля, який ви використовуєте, але 0 найпоширеніший), і мінімальної ймовірності отримання ефекту від вас хочу мати. Працюючи з цієї точки зору, розмір вибірки визначається за допомогою аналізу потужності.
Інший розгляд - стабільність вашої моделі (як зазначає @cbeleites). В основному, оскільки відношення параметрів, оцінених до кількості даних, наближається до 1, ваша модель стане насиченою і обов'язково буде перевантаженою (якщо насправді в системі немає випадковості). З цієї точки зору походить правило відношення 1 до 10. Зауважте, що достатня потужність, як правило, покриватиме це питання щодо вас, але не навпаки.
Правило від 1 до 10 походить із світу лінійної регресії, і важливо визнати, що логістична регресія має додаткові складності. Одне питання полягає в тому, що логістична регресія найкраще працює тоді, коли відсотки 1 і 0 дорівнюють приблизно 50% / 50% (як @andrea та @psj обговорюють у коментарях вище). Ще одне питання, яке має хвилюватись, - це розлука . Тобто, ви не хочете, щоб усі ваші 1 були зібрані на одній крайності незалежної змінної (або якоїсь їх комбінації), а всі 0 в іншій крайності. Хоча це здасться гарною ситуацією, оскільки це спростило б ідеальне прогнозування, воно фактично змушує процес оцінки параметрів підірватись. (@Scortchi чудово обговорює, як боротися з розділенням у логістичній регресії тут:Як боротися з ідеальним розділенням при логістичній регресії? ) Якщо більше IV, це стає більш імовірним, навіть якщо справжні величини ефектів залишаються постійними, і особливо якщо ваші відповіді не збалансовані. Таким чином, вам легко знадобиться більше 10 даних на IV.
Останнє питання з цим правилом полягає в тому, що він передбачає, що ваші IV є ортогональними . Це розумно для розроблених експериментів, але при спостережувальних дослідженнях, таких як ваш, ваші ІV майже ніколи не будуть приблизно ортогональними. Існують стратегії вирішення цієї ситуації (наприклад, комбінування або відміна IV, проведення аналізу основних компонентів спочатку тощо), але якщо це не буде вирішено (що є загальним), вам знадобиться більше даних.
Тож розумне питання: а яким повинен бути ваш мінімальний N та / або чи достатній розмір вибірки? Для вирішення цього питання я пропоную використовувати методи @cbeleites обговорює; покладаючись на правило від 1 до 10, буде недостатньо.
1
і) і 90 - не випадки (випадки0
), то в цьому правилі написано "включити лише 1 провісника". Але що робити, якщо я моделюю0
'' замість1
'', а тоді я беру зворотну оцінку коефіцієнта шансів? Чи дозволено мені включити 9 предикторів? Це для мене немає сенсу.