Поради щодо визначення форми кривої за допомогою Quantreg


10

Я використовую пакунок Quantreg, щоб зробити модель регресії, використовуючи 99-й перцентиль моїх значень у наборі даних. На основі порад з попереднього запитання про stackoverflow, який я задав, я використав таку структуру коду.

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

яку я показую накресленою поверх моїх даних. Я побудував це за допомогою ggplot2 із значенням альфа для очок. Я думаю, що хвіст мого розповсюдження недостатньо розглядається в моєму аналізі. Можливо, це пов'язано з тим, що існують окремі точки, які ігноруються вимірюванням типу процентилів.

Один із коментарів підказав це

Пакетна віньєтка містить розділи про нелінійну квантильну регресію, а також моделі з вирівнюючими сплайнами тощо.

На основі свого попереднього запитання я припустив логарифмічну залежність, але я не впевнений, чи правильно це. Я думав, що зможу витягнути всі точки на інтервалі 99-го перцентиля, а потім вивчити їх окремо, але я не впевнений, як це зробити, або якщо це вдалий підхід. Буду вдячний за будь-яку пораду, як покращити виявлення цих відносин.

введіть тут опис зображення


На сайті є кілька хороших запитань, про які вже йдеться про такі перетворення даних, див. Stats.stackexchange.com/q/1444/1036 або stats.stackexchange.com/q/298/1036
Енді W

Чи можете ви оновити сюжет, щоб додати умовну медіану? мені здається, це більше нагадує проблему квантильного перетину, ніж проблему перетворення даних ...
user603

@ user603 Що ви маєте на увазі під умовною медіаною? (Я шукав в Інтернеті, але не знаю, як його обчислити)
celenius

tau = 0,5 у функції rq ().
user603

1
Якщо ваша мета полягає в конкретному оцінці умовного 99-го перцентилету, я би проголосував за нелінійну квантильну регресію (якась така - я не знаю добре R-пакетів), оскільки це не звучить так, як ви знаєте справжню функціональну форму . З вашого попереднього запитання мені все ще не було зрозуміло, яка реальна мета, тому я повторю коментар до вашого попереднього запитання від Spacedman 4 січня о 17:01
David M Kaplan

Відповіді:


1

Усі моделі помиляються, але деякі корисні (Джордж Бокс). Ви примушуєте лорритмічну форму до встановленої кривої, і чесно кажучи, це не так погано. Підхват поганий на хвості, тому що там менше очок; два дозволені вам параметри відповідатимуть основній частині даних. Іншими словами, в масштабі журналу цей хвіст недостатньо далеко від основної маси ваших даних, щоб забезпечити важелі використання. Це не має відношення до кількісного характеру регресу; OLS також ігнорує ці моменти (особливо у шкалі журналів).

Досить легко дозволити ще трохи нелінійності. Я частковий до природних сплайнів, але знову ж таки, всі моделі помиляються:

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

У quantregупаковці є спеціальні гачки для монотонних сплайнів, якщо це вас хвилює.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.