Значення р-значень у регресії

Коли я виконую лінійну регресію в деяких програмних пакетах (наприклад, Mathematica), я отримую p-значення, пов'язані з окремими параметрами в моделі. Наприклад, результати лінійної регресії, яка дає результат , матимуть p-значення, пов'язане з і one з . $ax+b$ $a$ $b$

Що означають ці значення p окремо щодо цих параметрів?
Чи існує загальний спосіб обчислення параметрів для будь-якої регресійної моделі?
Чи можна р-значення, пов'язане з кожним параметром, об'єднати у значення р для всієї моделі?

Щоб зберегти це питання математичним за своєю суттю, я шукаю лише інтерпретації p-значень з точки зору ймовірностей.

probability regression

— Генріх Б.
джерело

Відповідь Гевіна у запитанні @cardinal пов’язана з ним добре.

— JM не є статистиком

@zyx, нічого не висунутого в питаннях ОП. Це дуже поширені запитання, до яких, на мою думку, більше відповідає stats.SE --- і до яких більше налаштовані учасники. Math.SE і MO - це відмінні ресурси для питань вірогідності, але значно менше для статистичних. Питання ОП набагато більше схиляються до останнього.

— кардинал

@cardinal: Я стежив за stats.SE з початку публічної бета-версії. Із 4800+ запитань на сьогодні я не зміг знайти те, що запитує або відповідає на пункт 3 з ОП, що дивно, якщо це "дуже поширений" запит. Я також не бачив концептуально точних відповідей на пункт 1 за кілька разів, коли він з'явився. Я думаю, що ці речі слід періодично розміщувати на math.SE та MO, щоб привернути увагу більшої аудиторії, а не протягом декількох хвилин переходити на статистику. Не завадить також запитати на stat.SE, але перетворення останнього на єдине місце, де можна обговорити статистику, не є корисним.

— zyx

Зараз існує нитка про math.SE до міграцій stats.SE у meta.math.SE.

— zyx

(Деякі згадані вище коментарі були загублені під час міграції. Вони видно в оригінальній публікації з математики.SE, пов’язаній нижче поруч зі словами "переселився з ...")

— zyx

Відповіді:

$a$ $\alpha = 0$ $t$ $b$ $\beta = 0$ $t$ $a,b$ $\alpha, \beta$ $t$ $\alpha = 0$ $\beta=0$ $a$ $b$ $\hat{A}$
Так. Зазвичай це робиться (і визначається) максимальною оцінкою ймовірності . Для лінійної регресії OLS та невеликої кількості інших моделей є точні формули для оцінки параметрів з даних. Для більш загальних регресій рішення мають ітераційний та числовий характер.
Не безпосередньо. Значення р розраховується окремо для випробування всієї моделі, тобто тесту гіпотези, що всі коефіцієнти (від змінних, які, як вважається, насправді змінюються, тому що не включають коефіцієнт "постійного члена", якщо є один). Але це p-значення, як правило, не може бути обчислене на основі знань p-значень коефіцієнтів.

— зикс
джерело

p

$p$

p

$p$

p

$p$

F

$F$

@NRH: Вибачте, чи можете ви уточнити свій попередній коментар. Я не зовсім дотримуюсь цього (поки). :)

— кардинал

@cardinal: здається, точніше сказати, що значення p пов'язане з тестом гіпотези. Параметри відображаються в нульовій гіпотезі тесту і пара (спостережуване значення оцінювача, альтернативна гіпотеза) потім визначають p-значення. Нульові гіпотези повинні бути описані за допомогою параметрів, таких як α = 0, а не оцінювачів a = 0, як це було [недбало] зроблено в оригінальній відповіді, тепер відредагованій (дякую, що вказали на помилку). Однак, нібито заплутане або відсутнє відмінність "оцінювачі є нормальними, а не параметри", було чітко зазначено у відповіді.

— zyx

Вибач, я просто не втримався. @zyx прокоментував оригінальну публікацію на math.SE, що відповіді на stat.SE часто були неточними. Я вважаю, що багато відповідей є досить точними, хоча іноді математичними неточними. Це в природі речей. Статистичні запитання та відповіді не завжди можна звести до точних математичних тверджень. Особливо не складні. Але відповідь, надана тут, не є ні особливо точною, ні точною.

— NRH

Я думаю, було б непогано, якби той, хто прихильнився, надав пояснювальний коментар.

— кардинал

wrt ваше перше питання: це залежить від вашого програмного забезпечення на вибір. Дійсно є два типи р-значень, які часто використовуються в цих сценаріях, обидва типово ґрунтуються на тестах співвідношення ймовірності (є й інші, але вони, як правило, еквівалентні або принаймні мало відрізняються за своїми результатами).

Важливо розуміти , що всі ці р-значення є умовно на (частини) інші параметри. Це означає: якщо припустити (деякі) оцінки інших параметрів правильні, ви перевіряєте, чи не дорівнює нулю коефіцієнт для параметра. Зазвичай нульова гіпотеза цих тестів полягає в тому, що коефіцієнт дорівнює нулю, тому якщо у вас невелике p-значення, це означає (умовно на значення інших коефіцієнтів), що сам коефіцієнт навряд чи дорівнює нулю.

Тип I випробовує тест на нульовість кожного коефіцієнта, умовно на значення коефіцієнтів, що надходять до нього в моделі (зліва направо). Випробування типу III (граничні випробування), випробування на нульовість кожного коефіцієнта, що залежить від значення всіх інших коефіцієнтів.

Різні інструменти представляють різні p-значення як типові, хоча типово ти маєш способи отримання обох. Якщо у вас немає причин поза статистикою включати параметри в певному порядку, вас, як правило, цікавлять результати випробувань типу III.

Нарешті (більше стосується останнього запитання), за допомогою тесту на коефіцієнт ймовірності ви завжди можете створити тест для будь-якого набору коефіцієнтів, що обумовлені рештою. Це шлях, якщо ви хочете протестувати одночасно декілька коефіцієнтів, що дорівнюють нулю (інакше у вас виникнуть неприємні проблеми з декількома тестуваннями).

— Нік Саббе
джерело

p

$p$

ψ = c^{'} β

$\psi = c'\beta$

t = \frac{\hat{ψ} - ψ_{0}}{\hat{σ} \sqrt{c^{'} (X^{'} X)^{- 1} c}}

$t = \frac{\hat{\psi} - \psi_0}{\hat{\sigma} \sqrt{c' (X' X)^{-1} c}}$

\hat{ψ} = c^{'} \hat{β}

$\hat{\psi} = c'\hat{\beta}$

\hat{β}

$\hat{\beta}$

c

$c$

X

$X$

\hat{σ}

$\hat{\sigma}$

| | e | |^{2} / (n - (p + 1))

$||e||^2 / (n - (p+1))$

e

$e$

j

$j$

c

$c$

j

$j$

ψ_{0} = 0

$\psi_0 = 0$

t

$t$

Суть справи висвітлена, наприклад, тут . Пам’ятайте, що anova - це лише особливий випадок регресу. В основному, це зводиться до цього: якщо ви зробите тест на нульовість (коефіцієнта) змінної A в моделі зі змінною B або без неї, ви можете отримати різні результати. Отже, результат обумовлений вашою моделлю, даними (навіть для значень змінної B) і, відповідно, коефіцієнтами не у вашому тесті, а у вашій моделі. Знайти цю ідею в математиці може бути дещо складніше :-)

— Нік Саббе

p - 1

$p-1$

p

$p$

c^{'} β

$c'\beta$

β_{j}

$\beta_j$

F = \frac{(S S_{e r} - S S_{e u}) / (d f_{e r} - d f_{e u})}{S S_{e u} / d f_{e u}}

$F = \frac{(SS_{er} - SS_{eu}) / (df_{er} - df_{eu})}{SS_{eu} / df_{eu}}$

S S_{e r}

$SS_{er}$

d f_{e r}

$df_{er}$

| | e_{r} | |^{2}

$||e_r||^2$

u

$u$

Безперервний випадок повинен бути повністю еквівалентний дихотомічній змінній 0-1.

— Нік Саббе