Мінімальна кількість балів за лінійну регресію

Яка була б "розумна" мінімальна кількість спостережень, щоб шукати тенденцію в часі з лінійною регресією? як щодо підгонки квадратичної моделі?

Я працюю із складовими показниками нерівності в здоров’ї (SII, RII) і маю лише 4 хвилі обстеження, тобто 4 бали (1997,2001,2004,2008).

Я не статистик, але в мене інтуїтивне враження 4 балів недостатньо. Чи є у вас відповідь та / або посилання?

Дуже дякую,

Франсуаза

regression

— Франсуаза
джерело

Звичайне правило - 10 балів за кожну незалежну змінну.

— Пітер Флом - Відновити Моніку

Як вимірюються ваші індекси? Якщо вони включають оцінки мінливості, то двох може бути достатньо (використовуючи t-тест або його аналог). Основний статистичний принцип, який застосовується тут, полягає в тому, що коли випадкове зміна є малоймовірним поясненням того, що ви спостерігаєте, то ви маєте право віднести будь-яку очевидну тенденцію до випадкових причин. Якщо тенденція сильна, для такого висновку може знадобитися дуже мало значень даних, незважаючи на всі загальні "великі правила".

— whuber

Правило Пітерса у великій кількості 10 на коваріат - це розумне правило. Пряма лінія може ідеально підходити до будь-яких двох точок незалежно від кількості шуму у значеннях відгуку, а квадратична може ідеально підходити лише з 3 балами. Так чітко за будь-яких обставин було б правильно сказати, що 4 бали недостатньо. Однак, як і більшість правил, він охоплює не кожну ситуацію. Випадки, коли термін шуму в моделі має велику дисперсію, вимагають більше зразків, ніж аналогічний випадок, коли дисперсія помилок невелика.

Необхідна кількість точок вибірки залежить від об'єктів. Якщо ви робите дослідницький аналіз, щоб побачити, чи одна модель (скажімо, лінійна в коваріаті) виглядає краще, ніж інша (скажімо, квадратична функція коваріату), менше 10 балів може бути достатньо. Але якщо ви хочете дуже точні оцінки коефіцієнтів кореляції та регресії коваріатів, вам може знадобитися більше 10 на коваріат. Критерій точності прогнозування може вимагати навіть більше вибірки, ніж точні оцінки параметрів. Зауважимо, що всі дисперсії оцінок та прогнозування включають дисперсію терміна помилки моделей.

— Майкл Р. Черник
джерело

Гарні бали, Майкл; Я намагався зробити це просто. :-). Враховуючи тему оригіналу питання, я був би дуже здивований, якби менше 10 балів були адекватними. Заходи нерівності у здоров’ї, ймовірно, мають багато помилок, і відносини з часом навряд чи будуть дуже лінійними. Чи знаєте ви якісь статті з цього приводу? Це цікава тема, яка виникає багато.

— Пітер Флом - Відновити Моніку

@PeterFlom Я не хочу. Я перегляну книгу Ван Белле про статистичні правила, щоб побачити, чи використовує він таке правило, як те, що ви згадали. Приємна річ у його книзі - це те, що він пояснює обґрунтування кожного правила. Я погоджуюся з вами, що правило, яке говорить, що брати принаймні 10 на коваріат, є дуже хорошим, а використання менше було б рідко безпечним, за винятком деяких дослідницьких випадків. У науках про здоров'я, де я працюю, термін шуму, здається, завжди великий, але, можливо, деякі жорстко контрольовані фізичні або інженерні експерименти можуть мати дуже точні вимірювання і, отже, невеликі випадкові помилки.

— Майкл Р. Черник

Я просто намагався вказати на можливість невеликого шуму, що призвело до необхідності менше 10 балів, хоча ця можливість може бути віддаленою.

— Майкл Р. Черник

R^{2}

$R^2$

+1, хороша інформація, але також варто згадати, що якщо ваш оцінювач є неупередженим, ви можете мати насичену модель і все одно мати оцінку параметрів, якщо це все, що вам потрібно. Ви не будете мати оцінку змінності або не зможете робити умовивід. Однак у деяких випадках, коли існує багато наслідків для оцінки та отримання даних, досить важко отримати, іноді використовуються насичені моделі. Так, наприклад, у цьому випадку можна отримати оцінку функції w / квадратична w / 3 бали. Я не обов'язково маю на увазі, що це добре, але це справжня нижня межа та причина, чому.

— gung - Відновіть Моніку