Чому ми вважаємо, що помилка зазвичай розподіляється?


17

Цікаво, чому ми використовуємо припущення Гаусса при моделюванні помилки. У курсі МЛ Стенфорда професор Нг описує це в основному двома способами:

  1. Це математично зручно. (Це пов'язано з розміщенням найменших квадратів і їх легко вирішити за допомогою псевдоінверси)
  2. Зважаючи на теорему центрального ліміту, ми можемо вважати, що існує безліч фактів, що впливають на процес, і сума цих окремих помилок, як правило, веде себе як при нульовому середньому нормальному розподілі. На практиці це, мабуть, так і є.

Мене цікавить друга частина насправді. Теорема про центральний ліміт працює на зразок iid, наскільки я знаю, але ми не можемо гарантувати, що основні зразки будуть ідентичними.

Чи є у вас ідеї щодо припущення Гаусса про помилку?


Про яку настройку ви говорите? Класифікація, регресія чи щось більш загальне?
tdc

Я поставив питання для загальної справи. Більшість оповідань починається з припущення про помилку Гаусса. Але особисто мене цікавлять матричні факторизації та рішення лінійних моделей (так би мовити регресія).
петричор

Відповіді:


9

Я думаю, що ви в основному зачепили цвях по голові в питанні, але я побачу, чи зможу я все-таки додати щось. Я збираюся відповісти на це трохи крутим способом ...

Поле надійної статистики вивчає питання, що робити, коли гауссова припущення не вдається (в тому сенсі, що є люди, що переживають люди):

Часто передбачається, що помилки даних зазвичай розподіляються, принаймні, приблизно, або що на центральну межу теореми можна покластися для отримання нормально розподілених оцінок. На жаль, коли в даних є інші люди, класичні методи часто мають дуже низьку ефективність

Вони були застосовані і в ML, наприклад, у Mika el al. (2001) Математичний підхід до програмування до алгоритму ядра Фішера , вони описують, як надійні втрати Хубера можна використовувати з KDFA (разом з іншими функціями втрат). Звичайно, це втрата від класифікації, але KFDA тісно пов'язана з машиною релевантності вектора (див. Розділ 4 статті Міка).

Як випливає з питання, існує тісний зв’язок між функціями втрат та баєсовими моделями помилок (див. Тут для обговорення).

Однак, як правило, випадок, що як тільки ви почнете включати "фанкі" функції втрат, оптимізація стає жорсткою (зауважте, що це відбувається і в байєсівському світі). Тому у багатьох випадках люди вдаються до стандартних функцій втрат, які легко оптимізувати, а замість цього проводять додаткову попередню обробку, щоб забезпечити відповідність даних моделі.

Іншим моментом, який ви згадуєте, є те, що CLT застосовується лише до зразків, які є IID. Це правда, але тоді припущення (та супровідний аналіз) більшості алгоритмів однакові. Коли ви починаєте переглядати дані, що не належать до IID, речі стають набагато складнішими. Одним із прикладів є тимчасова залежність, і в такому випадку типовим підходом є припущення, що залежність охоплює лише певне вікно, і тому зразки можна вважати приблизно IID поза цим вікном (див., Наприклад, цей блискучий, але жорсткий папір Chromatic PAC) -Бейнс-межі для даних, що не належать до IID: додатки до ранжування та стаціонарні процеси β-змішування ), після яких можна застосувати звичайний аналіз.

Так, так, це зводиться частково до зручності, а частково тому, що в реальному світі більшість помилок виглядають (приблизно) гауссовими. Звичайно, завжди слід бути обережними, дивлячись на нову проблему, щоб переконатися, що припущення не порушуються.


1
+1 Дуже дякую, особливо за те, що ви згадали про надійну та не надійну статистику. Я зауважую, що середні та порізані альфа середніми ділами зазвичай краще, ніж середні на практиці, але я не знав теорії, що стоїть за ними.
petrichor

3
Інший елемент зручності, пов'язаний із нормально розподіленими даними, полягає в тому, що кореляція 0 передбачає незалежність.
AdamO

3
Коментар про IID-ness не зовсім правильний. Існує (кілька) дуже загальних центральних граничних теорем, які застосовуються, коли результати незалежні, але не розподілені однаково; див. наприклад, Lindeberg CLT. Також є результати CLT, які навіть не потребують незалежності; вони можуть виникати, наприклад, із обмінних спостережень.
гість
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.