Чому так часто використовується різниця в квадраті?

Дуже часто, коли я досліджую нові статистичні методи та концепції, я стикаюся з різницею у квадраті (або середньою помилкою у квадраті, або безліччю інших епітетів). Як приклад, р. Пірсона визначається на основі середньої різниці у квадраті від лінії регресії, на якій лежать точки. Для ANOVA ви дивитесь на суму квадратів тощо.

Тепер я розумію, що, відбиваючи все, ви переконуєтесь, що дані з вибуховими особами дійсно отримують штраф. Однак чому показник використовується саме 2? Чому б не 2.1, або e, або pi, чи що завгодно? Чи є якась особлива причина, чому використовується 2, чи це просто умова? Я підозрюю, що пояснення може мати щось спільне з кривою дзвону, але я цілком впевнений.

normal-distribution

— Спелдоса
джерело

По-перше, ви неправильно використовуєте термін EXPONENTIAL, який стосується таких речей, як

a^{x}

$a^x$ а не

x^{a}

$x^a$ . По-друге, подивіться на stats.stackexchange.com/questions/118/…, де ця тема ретельно висвітлена.

— Russ Lenth

@rvl Дякую, я відредагував цей термін зі свого запитання. І дякую, я перевірю це питання!

— Speldosa

Одна з вагомих причин, яку вони з'являються в кінцевому підсумку, випливає з простих формул, які пов'язують відхилення сум до дисперсій (і, можливо, коваріацій) компонентів, і акуратних результатів розкладання квадратів. Якщо питання @rvl, посилання на якийсь вище, відповідає на ваше запитання, будь ласка, вирішіть закрити своє запитання. Якщо він не відповідає повністю на ваше запитання, відредагуйте його, щоб виділити відмінності між тим, що ви хочете знати, і тим, що там вирішено.

— Glen_b -Встановіть Моніку

Я думаю, це питання інше, ніж інша (популярна) нитка про квадрати. Існує концептуальна різниця між квадратичною функцією втрати (яка, внизу, є ключем до відповіді на це питання), і квадратиком для оцінки відхилень (що є тягою іншої нитки).

— whuber

Ознайомтесь тут і тут на подібні проблеми.

— Тім

Теоретичний підхід до статистичних рішень дає глибоке пояснення. У ньому йдеться про те, що різниці між квадратиками є прокси для широкого спектру функцій втрат, які (коли вони можуть бути обґрунтовано прийняті) призводять до значного спрощення можливих статистичних процедур, з якими слід враховувати.

На жаль, пояснення того, що це означає, і вказівка того, чому це правда, потребує значних налаштувань. Позначення можуть швидко стати незрозумілими. Тоді я маю на меті зробити це лише накреслити основні ідеї з невеликим доробком. Для більш повних облікових записів див. Посилання.

Стандартна, насичена модель даних передбачає, що вони є реалізацією (реальної, векторної) випадкової величини , розподіл якої як відомо, є лише елементом деякого набору розподілів, станів природи . Статистична процедура є функцією з приймає значення в деякій множині рішень , то рішення простору. $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

Наприклад, в задачі прогнозування або класифікації буде складатися з об'єднання "навчального набору" і "тестового набору даних", і буде відображати у набір прогнозованих значень для тестового набору. Безліч всіх можливих прогнозованих значень буде . $\mathbf x$ $t$ $\mathbf x$ $D$

Повне теоретичне обговорення процедур повинно враховувати рандомізовані процедури . Рандомізована процедура вибирає між двома або більше можливими рішеннями відповідно до деякого розподілу ймовірностей (що залежить від даних ). Це узагальнює інтуїтивну думку про те, що коли дані, схоже, не розрізняють дві альтернативи, згодом ви "перегортаєте монету", щоб вирішити певну альтернативу. Багато людей не люблять рандомізованих процедур, заперечуючи проти прийняття рішень таким непередбачуваним чином. $\mathbf x$

Відмінною рисою теорії прийняття рішень є використання функції втрат . $W$ Для будь-якого стану природи та рішення втрата $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

є числовим значенням, що представляє, наскільки "поганим" було б прийняти рішення коли справжній стан природи : невеликі втрати хороші, великі втрати - погані. Наприклад, у ситуації тестування гіпотез, наприклад, має два елементи "прийняти" та "відхилити" (нульова гіпотеза). Функція втрати підкреслює прийняття правильного рішення: вона встановлюється в нуль, коли рішення є правильним, а в іншому випадку є деякою постійною . (Це називається " функція втрати :" всі погані рішення однаково погані, а всі хороші рішення однаково хороші.) Зокрема, коли знаходиться в нульовій гіпотезі і $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ $F$ $W(F,\text{ reject})=0$ $F$ - в альтернативній гіпотезі.

При використанні процедури втрата для даних коли справжній стан природи може бути записана . Це робить втрати випадкова величина , розподіл якого визначається формулою (невідомість) . $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

Очікувана втрата процедури називається її ризиком , . В очікуванні використовується справжній стан природи , який, таким чином, буде явно відображатися в якості підпису оператора очікування. Ми розглянемо ризик як функцію і підкреслимо, що за допомогою позначення: $t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

Кращі процедури мають менший ризик. Таким чином, порівняння функцій ризику є основою для вибору хороших статистичних процедур. Оскільки переосмислення всіх функцій ризику на загальну (позитивну) константу не змінило б жодного порівняння, шкала не має ніякої різниці: ми вільні множити її на будь-яке позитивне значення, яке нам подобається. Зокрема, при множенні на ми завжди можемо приймати для функції втрат (виправдовуючи її назву). $W$ $W$ $1/w$ $w=1$ $0-1$

Для продовження прикладу тестування гіпотез, який ілюструє функцію втрати , ці визначення передбачають ризик виникнення будь-якого в нульовій гіпотезі, є ймовірність того, що рішення буде "відхилено", тоді як ризик будь-якого в альтернативному варіанті є шанс, що рішення буде "прийняти". Максимальне значення (над усім у нульовій гіпотезі) - розмір тесту , тоді як частина функції ризику, визначена в альтернативній гіпотезі, є доповненням потужності тесту ( ). З цього ми бачимо, як вся теорія тестування класичної (частої) гіпотези є певним способом порівняння функцій ризику для особливого виду втрат. $0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$

До речі, все представлене до цього часу повністю сумісне з усіма основними статистичними даними, включаючи байєсівську парадигму. Крім того, Байєсовий аналіз вводить "попередній" розподіл ймовірностей по і використовує це для спрощення порівняння функцій ризику: потенційно складна функція може бути замінена очікуваним значенням стосовно попереднього розподілу. Таким чином, всі процедури характеризуються одним числом ; процедура Байєса (яка, як правило, є унікальною) мінімізує . Функція втрат все ще відіграє важливу роль в обчисленні . $\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

Існує певна (неминуча) суперечка щодо використання функцій втрат. Як можна вибрати ? Це по суті унікальне для тестування гіпотез, але в більшості інших статистичних параметрів можливе багато варіантів. Вони відображають цінності того, хто приймає рішення. Наприклад, якщо дані є фізіологічними вимірюваннями медичного пацієнта, і рішення "лікувати" або "не лікувати", лікар повинен враховувати - і зважувати в рівновазі - наслідки будь-якої дії. Те, як зважуються наслідки, може залежати від власних побажань пацієнта, віку, якості життя та багатьох інших речей. Вибір функції втрат може бути загрозливим та глибоко особистим. Зазвичай це не слід залишати статистику! $W$

Одне, про що ми хотіли б знати, - це як зміниться вибір найкращої процедури при зміні втрат? Виявляється, у багатьох поширених практичних ситуаціях можна допустити певну кількість варіацій, не змінюючи, яка процедура найкраща. Для цих ситуацій характерні наступні умови:

Простір рішення - це опуклий набір (часто це інтервал чисел). Це означає, що будь-яка цінність, що лежить між двома рішеннями, також є дійсним рішенням.
Втрата дорівнює нулю, коли приймається найкраще можливе рішення і в іншому випадку збільшується (щоб відобразити розбіжності між прийнятим рішенням і найкращим, що могло бути прийнято для справжнього - але невідомого - стану природи).
Втрата є диференційованою функцією рішення (принаймні локально поблизу найкращого рішення). Це означає, що він є безперервним - він не стрибає так, як втрата , але також означає, що він змінюється порівняно мало, коли рішення близьке до найкращого. $0-1$

Коли ці умови дотримуються, деякі ускладнення, пов'язані з порівнянням функцій ризику, відпадають. Диференційність і опуклості дозволяють застосувати нерівність Дженсена, щоб показати це $W$

(1) Нам не доводиться розглядати рандомізовані процедури [Леманн, слідство 6.2].

(2) Якщо одна процедура вважається найкращим ризиком для одного такого , вона може бути перетворена на процедуру яка залежить лише від достатньої статистики і має принаймні настільки ж хорошу функцію ризику для всіх таких [Кіфер, с. 151]. $t$ $W$ $t^{*}$ $W$

Наприклад, - це набір нормальних розподілів із середньою (та дисперсією одиниці). Це ототожнює з набором усіх реальних чисел, тому (зловживаючи позначеннями), я також використовуватиму " " для ідентифікації розподілу в із середнім . Нехай - зразок розміру з одного з цих розподілів. Припустимо, мета полягає в оцінці . Це ідентифікує простір рішення з усіма можливими значеннями (будь-яке дійсне число). Нехай позначає довільне рішення, втрата є функцією $\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

з тоді і тільки тоді, коли . Попередні припущення означають (через теорему Тейлора), що $W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

для деякого постійного додатного числа . (Позначення " " означає будь-яку функцію де граничне значення дорівнює як Як було зазначено раніше, ми вільні змінити масштаб зробити . Для цієї родини середнє значення , записане , є достатньою статистикою. Попередній результат (цитується від Кіфера) говорить про будь-який оцінювач , який міг би бути якоюсь довільною функцією змінних яка є хорошою для одного такого $w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ , Можуть бути перетворені в оцінки в залежності тільки від , який є , по крайней мере , як добре для всіх таких . $\bar x$ $W$

Те, що було досягнуто в цьому прикладі, є типовим: надзвичайно складний набір можливих процедур, який спочатку складався з можливих рандомізованих функцій змінних, зводився до набагато простішого набору процедур, що складаються з не рандомізованих функцій однієї змінної ( або принаймні менша кількість змінних у випадках, коли достатня статистика є багатоваріантною). І це можна зробити, не переживаючи, що саме є функцією збитку керівника, за умови лише опуклості та диференціації. $n$

Яка найпростіша така функція втрат? Той, хто ігнорує решту терміну, звичайно, роблячи це чисто квадратичною функцією. Інші функції втрат цього ж класу включають повноваженняякі перевищують (наприклад, та зазначені у запитанні), та багато інших. $z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

Малюнок

Синя (верхня) крива графіки тоді як червона (нижня) крива ділянки . Оскільки синя крива також має мінімум на , є диференційованою та опуклою, багато приємних властивостей статистичних процедур, якими користується квадратична втрата (червона крива), також застосовуватимуться до функції синіх втрат $2(\exp(|z|)-1-|z|)$ $z^2$ $0$ (навіть якщо глобально експоненціальна функція поводиться інакше, ніж квадратична функція).

Ці результати (хоча очевидно обмежені умовами, які були накладені) допомагають пояснити, чому квадратична втрата є всюдисущою в статистичній теорії та практиці: в обмеженій мірі це аналітично зручний проксі для будь-якої опуклої диференційованої функції втрат.

Квадратична втрата аж ніяк не є єдиною або навіть найкращою втратою, яку слід врахувати. Справді, Леман пише це

Виявлено, що функції опуклості втрат призводять до ряду спрощень проблем оцінки. Однак можна задатися питанням, чи такі функції втрат можуть бути реалістичними. Якщо являє собою не лише міру неточності, а реальну (наприклад, фінансову) втрату, можна стверджувати, що всі такі втрати є обмеженими: щойно ви втратили всі, ви більше не можете втратити. ... $W(F, d)$

... [F] Функції зростаючих втрат призводять до оцінювачів, які, як правило, чутливі до припущень, зроблених щодо [хвостової поведінки [передбачуваного розподілу], і ці припущення, як правило, засновані на мало інформації та, таким чином, не дуже надійний.

Виявляється, оцінювачі, отримані в результаті втрати помилки в квадраті, часто неприємно чутливі в цьому відношенні.

[Леман, розділ 1.6; з деякими змінами позначень.]

Враховуючи альтернативні втрати, відкривається багатий набір можливостей: квантильна регресія, М-оцінки, надійна статистика та багато іншого можуть бути сформульовані цим теоретично-теоретичним способом та виправдані з використанням альтернативних функцій втрат. Простий приклад див . У функціях відсоткової втрати .

Список літератури

Джек Карл Кіфер, Вступ до статистичних висновків. Спрингер-Верлаг 1987 року.

Е. Л. Леманн, Теорія оцінки точок . Wiley 1983.

— дзижчати
джерело

Геометричні властивості для цієї метрики відстані такі, що їх буде легко використовувати.

І звичайно простіша математика, якщо у вас є аналітичне рішення для більшості проблем.

— Аналітик
джерело

Може, ви могли б трохи детальніше розробити?

— Тім

@Tim, нерівність трикутника та математичні властивості квадратичних форм прийшли мені на думку ...

— Аналітик,

Нерівність трикутника існує для кожної метрики відстані. Особливістю евклідової відстані / 2 норми / різниці у квадраті / МСЕ є великий набір перетворень, які зберігають її (усі ортогональні матриці).

— Федеріко Полоні