Правила великого пальця для мінімального розміру вибірки для багаторазової регресії


72

У контексті дослідницької пропозиції із соціальних наук мені поставили таке питання:

Я завжди йшов на 100 + м (де m - кількість предикторів) при визначенні мінімального розміру вибірки для множинної регресії. Чи підходить це?

У мене дуже часто виникають подібні запитання, часто з різними правилами. Я також дуже багато читав подібні правила в різних підручниках. Іноді мені цікаво, чи популярність правила в частині цитат базується на тому, наскільки низьким є стандарт. Однак я також усвідомлюю цінність хорошої евристики для спрощення прийняття рішень.

Запитання:

  • У чому полягає корисність простих правил для мінімальних розмірів вибірки в контексті прикладних дослідників, які розробляють дослідницькі дослідження?
  • Ви б запропонували альтернативне правило для мінімального розміру вибірки для багаторазової регресії?
  • В якості альтернативи, які альтернативні стратегії ви б запропонували визначити мінімальний розмір вибірки для множинної регресії? Зокрема, було б добре, якби значення було присвоєне тій мірі, до якої будь-яка стратегія може бути легко застосована нестатистом.

Відповіді:


36

Я не прихильник простих формул для створення мінімальних розмірів вибірки. Принаймні, будь-яка формула повинна враховувати розмір ефекту та питання, що цікавлять вас. І різниця між обома сторонами відсікання мінімальна.

Розмір вибірки як проблема оптимізації

  • Більш великі зразки - кращі.
  • Розмір вибірки часто визначається прагматичними міркуваннями.
  • Розмір вибірки повинен розглядатись як один з аспектів проблеми оптимізації, коли вартість часу, грошей, зусиль тощо для отримання додаткових учасників відміряється від переваг від наявності додаткових учасників.

Грубе правило великого пальця

З точки зору дуже грубих правил в рамках типового контексту спостережливих психологічних досліджень, що включають такі речі, як тести здібностей, шкали ставлення, заходи особистості тощо, я іноді думаю про:

  • n = 100 як достатня
  • n = 200 як добре
  • n = 400 + як великий

Ці норми ґрунтуються на 95% довірчих інтервалах, пов'язаних з кореляціями на цих відповідних рівнях, та на ступінь точності, яку я хотів би теоретично зрозуміти відносини, що цікавлять. Однак це лише евристика.

G Потужність 3

Множинна регресія перевіряє кілька гіпотез

  • Будь-яке питання аналізу потужності вимагає врахування розмірів ефекту.
  • Аналіз потужності для багаторазової регресії ускладнюється тим, що існує кілька ефектів, включаючи загальний r-квадрат і один для кожного індивідуального коефіцієнта. Крім того, більшість досліджень включають більш ніж одну множинну регресію. Для мене це додаткова причина більше покладатися на загальну евристику та думати про мінімальний розмір ефекту, який ви хочете виявити.

  • Щодо множинної регресії, я часто буду думати більше щодо ступеня точності при оцінці основної кореляційної матриці.

Точність в оцінці параметрів

Мені також подобається, як Кен Келлі та колеги обговорювали Точність в оцінці параметрів.

  • Дивіться на веб-сайті Кен Келлі публікації
  • Як згадували @Dmitrij, Kelley та Maxwell (2003) БЕЗКОШТОВНА версія PDF має корисну статтю.
  • Кен Келлі розробив MBESSпакет R для проведення аналізів, що стосуються розміру вибірки та точності в оцінці параметрів.

17

Я не вважаю за краще вважати це питанням влади, а радше задаю питання "наскільки великим має бути щоб очевидним можна було довіряти"? Одним із способів підходу є розгляд співвідношення або різниці між та , останній є скоригованим заданим і формує більш неупереджену оцінку "справжнього" .nR2R2Radj2R21(1R2)n1np1R2

Деякі R-коди можуть бути використані для вирішення для коефіцієнта що повинен бути таким, що є лише коефіцієнтом меншим, ніж або лише меншим на . pn1Radj2kR2k

require(Hmisc)
dop <- function(k, type) {
  z <- list()
  R2 <- seq(.01, .99, by=.01)
  for(a in k) z[[as.character(a)]] <-
    list(R2=R2, pfact=if(type=='relative') ((1/R2) - a) / (1 - a) else
         (1 - R2 + a) /  a)
  labcurve(z, pl=TRUE, ylim=c(0,100), adj=0, offset=3,
           xlab=expression(R^2), ylab=expression(paste('Multiple of ',p)))
}
par(mfrow=c(1,2))
dop(c(.9, .95, .975), 'relative')
dop(c(.075, .05, .04, .025, .02, .01), 'absolute')

введіть тут опис зображення Легенда: Деградація в що досягає відносного падіння від до за вказаним відносним фактором (ліва панель, 3 фактори) або абсолютною різницею (права панель, 6 декрементів).R2R2Radj2

Якщо хтось бачив це вже в друку, будь ласка, дайте мені знати.


1
+1. Я підозрюю, що мені не вистачає чогось досить фундаментального та очевидного, але чому ми повинні використовувати здатність оцінювати як критерій? Ми вже маємо доступ до , навіть якщо низький. Чи є спосіб пояснити, чому це правильний спосіб подумати про мінімально адекватний поза тим, що він робить кращою оцінкою ? R^2R2Radj2NNR^2R2
gung

@FrankHarrell: дивіться, тут автор, схоже, використовує сюжети 260-263 приблизно так само, як ті, які ви розміщуєте у вашому дописі вище.
user603

5
Дякую за довідку. @gung, це гарне питання. Один (слабкий) варіант відповіді полягає в тому, що в деяких типах моделей у нас немає , і ми також не маємо коригованого індексу, якщо було зроблено будь-який вибір змінної. Але основна ідея полягає в тому, що якщо є неупередженим, інші показники прогностичної дискримінації, такі як заходи кореляції рангових позицій, ймовірно, будуть неупередженими також через адекватність розміру вибірки та мінімального перевиконання. Radj2R2
Френк Харрелл

12

(+1) для дійсно важливого, на мою думку, питання.

У макроеконометрії у вас зазвичай значно менші розміри вибірки, ніж у мікро-, фінансових чи соціологічних експериментах. Дослідник відчуває себе досить добре, коли він може дати хоча б здійсненні оцінки. Моє найменше особисте правило: ( ступеня свободи на один оцінений параметр). В інших прикладних галузях дослідження вам зазвичай більше щастить з даними (якщо це не надто дорого, просто збирайте більше точок даних), і ви можете запитати, який оптимальний розмір вибірки (не просто мінімальне значення для таких). Останнє питання випливає з того, що більш низькі (шумні) дані не кращі, ніж менші вибірки високоякісних.4m4

Більшість розмірів вибірки пов'язані з потужністю тестів для гіпотези, яку ви збираєтеся перевірити, після того як ви підходите до моделі множинної регресії.

Є хороший калькулятор, який може бути корисним для декількох моделей регресії та деякою формулою за кадром. Я думаю, що такий апріорний калькулятор може легко застосувати нестатист.

Можливо K.Kelley і SEMaxwell стаття може бути корисним , щоб відповісти на інші питання, але мені потрібно більше часу , щоб вивчити першу проблему.


11

Ваше правило не особливо добре, якщо дуже великий. Візьміть : ваше правило стверджує, що нормально відповідати змінним із лише спостереженнями. Я навряд чи так думаю!mm=500500600

Для багаторазової регресії у вас є теорія, яка дозволяє запропонувати мінімальний розмір вибірки. Якщо ви збираєтесь використовувати звичайні найменші квадрати, то одне з припущень, яке вам потрібно, - це те, щоб "справжні залишки" були незалежними. Тепер, коли ви прилаштовуєте модель найменших квадратів до змінних, ви накладаєте лінійні обмеження на ваші емпіричні залишки (задані найменшими квадратами або "нормальними" рівняннями). Це означає, що емпіричні залишки не є незалежними - як тільки ми знаємо з них, можна вивести решту , де - розмір вибірки. Тож ми маємо порушення цього припущення. Тепер порядок залежності . Отже, якщо ви виберетеmm+1nm1m+1nO(m+1n)n=k(m+1) для деякого числа , тоді порядок задається . Отже, вибираючи , ви вибираєте, скільки залежності ви готові терпіти. Я вибираю так само, як і для застосування "центральної граничної теореми" - це добре, і у нас є правило "підрахунку статистики" (тобто система підрахунку статистиків ).kO(1k)kk1020301,2,,26,27,28,29,


Ви кажете, що від 10 до 20 це добре, але чи це також залежатиме від розміру дисперсії помилок (можливо, стосовно інших речей)? Наприклад, припустимо, що була лише одна змінна предиктора. Якщо було відомо, що дисперсія помилок дійсно невелика, то, здається, може бути достатньо 3 або 4 точок даних для надійної оцінки нахилу та перехоплення. З іншого боку, якби відомо, що відхилення помилок були величезними, то навіть 50 точок даних можуть бути недостатніми. Я щось нерозумію?
mark999

Чи можете ви надати будь-яку посилання для запропонованого рівняння n=k(m+1)?
Сосі

6

У галузі психології:

Грін (1991) вказує, що (де m - кількість незалежних змінних) потрібно для тестування множинної кореляції та для тестування окремих предикторів.N>50+8mN>104+m

Інші правила, якими можна скористатися, є ...

Гарріс (1985) каже, що кількість учасників повинна перевищити кількість прогнозів як мінімум на .50

Van Voorhis & Morgan (2007) ( pdf ), використовуючи 6 і більше прогнозів, абсолютний мінімум учасників повинен бути . Хоча краще поїхати по учасників за змінну.1030


1
У вашому першому "правилі" немає м.
Дасон

Його перше правило написано так N = 50 + 8 m, ніби його запитували, чи потрібен термін 50
Сосі

Я додав нове і більш складне правило, яке враховує розмір ефекту вибірки. Це також представив Зелений (1991).
Сосі

2
Які повні цитати посилань на Green (1991) та Harris (1985)?
Хатшепсут

2

Я згоден, що калькулятори потужності корисні, особливо для того, щоб побачити вплив різних факторів на потужність. У цьому сенсі калькулятори, що містять більше вхідної інформації, набагато кращі. Для лінійної регресії, мені подобається регресійний калькулятор тут , який включає в себе такі чинники, як помилки в Xs, кореляція між Xs, і багатьма іншими.


0

Я знайшов цей досить недавній документ (2015) , в якому оцінюється, що достатньо лише 2 спостережень на змінну, якщо наш інтерес полягає в точності оцінених коефіцієнтів регресії та стандартних помилок (і в емпіричному висвітленні отриманих довірчих інтервалів), і ми використовувати скоригований :R2

( pdf )

Звичайно, як також визнано в роботі, (відносна) неупередженість не обов'язково означає наявність достатньої статистичної сили. Однак розрахунки потужності та розміру вибірки, як правило, проводяться шляхом уточнення очікуваних ефектів; у випадку множинної регресії це означає гіпотезу про значення коефіцієнтів регресії або про матрицю кореляції між регресорами та результатом. На практиці це залежить від сили кореляції регресорів з результатом і між собою (очевидно, чим сильніше, тим краще для співвідношення з результатом, тоді як при поліколінеарності все погіршується). Наприклад, у крайньому випадку двох ідеально колінеарних змінних, ви не можете виконати регресію незалежно від кількості спостережень і навіть лише з двома коваріатами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.