Згладжування - коли ним користуватися, а коли не робити?


18

У блозі Вільяма Бріггса є досить старий пост, який розглядає підводні камені згладжування даних і перенесення цих згладжених даних до аналізу. Ключовим аргументом є:

Якщо в момент божевілля ви робите згладжені дані часових рядів і використовуєте їх як вхід для інших аналізів, ви різко збільшуєте ймовірність обдурити себе! Це відбувається тому, що згладжування викликає помилкові сигнали - сигнали, які реально виглядають в інших аналітичних методах. Незалежно від того, що ви будете занадто впевнені у своїх кінцевих результатах!

Однак я намагаюся знайти всебічні дискусії щодо того, коли згладити, а коли не слід.

Це лише спохмурнене згладжування при використанні згладжених даних як вхід до іншого аналізу чи є інші ситуації, коли згладжування не рекомендується? І навпаки, чи існують ситуації, коли згладжування рекомендується проводити?


1
Більшість застосувань аналізу часових рядів є певним чином згладжуванням, навіть коли вони не описуються як такі. Згладжування може використовуватися як дослідницький або підсумковий пристрій - у деяких полях, що є навіть основним або єдиним використовуваним методом - або для видалення функцій, ніж вони розглядаються як неприємність або є вторинними для певної мети.
Нік Кокс

4
Відмова: Я не прочитав всю цитовану публікацію в блозі. Я не міг оминути елементарні друкарські помилки ("серія часів", "Монте-Керол"), а її тон та стиль не були привабливими. Але я б не радив намагатися вивчити принципи аналізу часових рядів або статистику взагалі за допомогою чийогось блогу.
Нік Кокс

@ NickCox Погодився, і особливо не з блогу, який, схоже, має сокиру молоти.
Hong Ooi

@HongOoi Так! Я вилучив декілька фраз вибору з проекту мого коментаря, який, можливо, здався б не менш виразним, ніж сам блог.
Нік Кокс

1
Я б узяв усе, що пише Бріггс, із зерном солі.
Момо

Відповіді:


16

Експоненціальне згладжування - класична методика, яка використовується в прогнозуванні позапричинних часових рядів. Поки ви використовуєте його лише для прямого прогнозування і не використовуєте зразкові згладжені пристосування як вхід до іншого алгоритму пошуку даних або статистичного алгоритму, критика Бріггса не застосовується. (Відповідно, я скептично ставлюсь до цього "для створення згладжених даних для презентації", як каже Вікіпедія - це, можливо, вводить в оману, приховуючи згладжену змінність.)

Ось вступ підручника до експоненціального згладжування.

І ось оглядова стаття (10-річна, але все ще актуальна).


EDIT: начебто є певні сумніви щодо обґрунтованості критики Бріггса, можливо, дещо впливає її упаковка . Я повністю згоден, що тон Бріггса може бути абразивним. Однак я хотів би проілюструвати, чому я думаю, що він має точку.

Нижче я моделюю 10 000 пар часових рядів із 100 спостережень у кожній. Усі серії - це білий шум, без кореляції. Отже, використовуючи стандартний тест на кореляцію, слід отримати значення p, які рівномірно розподілені на [0,1]. Як це робиться (гістограма зліва внизу).

Однак припустимо, що ми спочатку згладимо кожну серію і застосуємо кореляційний тест до згладжених даних. З'являється щось дивне: оскільки ми видалили з даних велику кількість варіабельності, ми отримуємо значення p, які занадто малі . Наш кореляційний тест сильно упереджений. Тож ми будемо занадто впевнені в будь-якій асоціації між оригінальною серією, про що говорить Бріггс.

Питання дійсно висить у тому, чи використовуємо ми згладжені дані для прогнозування; в такому випадку згладжування є дійсним, чи включаємо ми його як вхід у якийсь аналітичний алгоритм, і в цьому випадку видалення змінності буде імітувати більшу достовірність наших даних, ніж це гарантовано. Ця необґрунтована визначеність вхідних даних несе в собі кінцеві результати і потребує врахування, інакше всі умовиводи будуть надто певними. (І звичайно, ми також отримаємо занадто малі інтервали прогнозування, якщо для прогнозування будемо використовувати модель, засновану на "завищеній визначеності".)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

p значення


1
Я б вважав це аксіоматичним для аналізу хороших часових рядів, що жодна гладка не відображається без відображення необроблених даних.
Нік Кокс

1

Стверджуючи, що згладжування є неприйнятним для аналізу моделювання, засуджує його до більш високої середньої квадратичної помилки, ніж може бути інакше. Середню квадратичну помилку або MSE можна розкласти на три терміни, квадрат значення, який називається `` зміщення '', дисперсію та деяку невідмінну помилку. (Це показано в цитатах нижче.) Надмірно згладжені моделі мають високий ухил, навіть якщо вони мають низьку дисперсію, а занадто грубі моделі мають великі дисперсії та низький ухил.

У цьому немає нічого філософського. Це математична характеристика. Це не залежить від характеру шуму або характеру системи.

Побачити:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Це означає деривацію розкладу.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (Блей робить те саме по-іншому, і вносить те, що відбувається, коли намагається передбачити.)

Класична статистика майже завжди наполягала на неупереджених оцінках. У 1955 році статистик Чарльз Штейн зі Стенфорда показав, що існували комбінації об'єктивних оцінювачів, які мали нижчий МСЕ для важливих спеціальних випадків, зокрема, що називалося ОЦІНКАТОРАМ ДЖАЙМС-СТЕЙН. Бредлі Ефрон написав дуже доступний текст про цю революцію в огляді: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.