Що таке припущення про статистичну процедуру?
Я не статистик і тому це може бути неправильним, але я думаю, що слово "припущення" часто використовується досить неофіційно і може стосуватися різних речей. Для мене "припущення" - це, строго кажучи, те, що може мати лише теоретичний результат (теорема).
Коли люди говорять про припущення про лінійну регресію ( див. Тут для поглибленої дискусії), вони зазвичай посилаються на теорему Гаусса-Маркова, яка говорить про те, що за припущеннями некоррельованих, рівних дисперсійних, нульових середніх помилок, оцінка OLS є СВІТЛОЮ , тобто є неупередженим і має мінімальну дисперсію. Поза контекстом теореми Гаусса-Маркова мені незрозуміло, що таке «припущення про регресію» навіть означало б.
Аналогічно, припущення, наприклад, однопробного t-випробування, відносяться до припущень, згідно з якими -статистика -розподілена, і, отже, висновок справедливий. Це не називається "теоремою", але це чіткий математичний результат: якщо зразків нормально розподілено, то -статистичний буде слідувати розподілу Стьюдента з ступенем свободи.ttnttn−1
Припущення пенізованої методики регресії
Розглянемо зараз будь-яку техніку регуляризованої регресії: регресія хребта, ласо, еластична сітка, регресія основних компонентів, часткова найменша регресія квадратів тощо. Вся суть цих методів полягає в упередженій оцінці параметрів регресії та сподіванні зменшити очікуване збитки, використовуючи компроміс з відхиленням відхилення.
Всі ці методи включають один або кілька параметрів регуляризації, і жоден з них не має певного правила вибору значень цього параметра. Оптимальне значення зазвичай виявляється за допомогою певної процедури перехресної перевірки, але існують різні методи перехресної перевірки, і вони можуть дати дещо інші результати. Крім того, не рідкість застосовувати деякі додаткові правила на додаток до перехресної перевірки. Як результат, фактичний результат будь-якого з цих покараних регресійних методів насправді не визначений повністю методом, але може залежати від вибору аналітика.β^
Тому мені незрозуміло, як може бути якесь теоретичне твердження про оптимальність щодо , і тому я не впевнений, що говорити про "припущення" (наявність чи відсутність таких) пенізованих методів, таких як регресія хребта, має сенс взагалі. .β^
А як щодо математичного результату, що регресія хребта завжди перемагає OLS?
Hoerl & Kennard (1970) у " Редгресі Рейда: упереджена оцінка для неортогональних проблем" довели, що завжди існує значення параметра регуляризації таке, що оцінка регресії хребта має строго менший очікуваний збиток, ніж оцінка OLS. Це дивовижний результат - див. Тут для обговорення, але це лише доводить існування такої , яка буде залежати від набору даних.λβλ
Цей результат насправді не вимагає жодних припущень і завжди відповідає дійсності, але було б дивно стверджувати, що регресія хребта не має жодних припущень.
Гаразд, але як мені знати, чи можу я застосувати регресію хребта чи ні?
Я б сказав, що навіть якщо ми не можемо говорити про припущення, ми можемо говорити про правила . Добре відомо, що регресія хребта є найбільш корисною у випадку множинної регресії з корельованими предикторами. Загальновідомо, що вона, як правило, перевершує OLS, часто за великим відривом. Він, як правило, перевершує його навіть у випадку гетеросцедастичності, корельованих помилок чи будь-чого іншого. Отже, просте правило проголошує, що якщо у вас є багатоколінні дані, регресія хребта та перехресне підтвердження є хорошою ідеєю.
Напевно, є й інші корисні правила роботи та хитрощі торгівлі (наприклад, що робити з валовими людьми). Але вони не є припущеннями.
Зауважте, що для регресії OLS потрібно виконати деякі припущення, щоб дотримуватися значень. На противагу цьому, складно отримати -значення в регресії хребта. Якщо це взагалі робиться, це робиться шляхом завантаження або іншого подібного підходу, і знову важко буде вказати на конкретні припущення, оскільки математичних гарантій немає.pp