Статистика та великі дані regression

4

Діагональні прямі лінії в залишках проти встановлених значень ділянки для множинної регресії

За моїми даними я спостерігаю дивні закономірності в залишках: [EDIT] Ось графіки часткової регресії для двох змінних: [EDIT2] Додано графік PP Здається, розподіл іде добре (див. Нижче), але я не маю жодного уявлення, звідки може бути ця пряма лінія. Будь-які ідеї? [ОНОВЛЕННЯ 31.07] Виявляється, ви були абсолютно праві, у мене …

11 regression multiple-regression residuals diagnostic

2

Звітування про результати простої лінійної регресії: яку інформацію включити?

Я щойно провів кілька (дуже) простих лінійних регресій у Genstat і хотів би включити стислий та змістовний підсумок результатів у свій звіт. Я не впевнений, що саме або скільки інформації я повинен включати. Основні біти мого висновку Genstat виглядають так: Summary of analysis Source d.f. s.s. m.s. v.r. F pr. …

11 regression reporting

1

Які залишки та відстань Кука використовуються для GLM?

Хтось знає, яка формула відстані Кука? Оригінальна формула відстані Кука використовує студизовані залишки, але чому R використовує std. Залишки Пірсона при обчисленні графіку відстані Кука для ГЛМ. Я знаю, що студизовані залишки не визначені для ГММ, але як виглядає формула для обчислення відстані Кука? Припустимо наступний приклад: numberofdrugs <- rcauchy(84, …

11 r regression generalized-linear-model residuals cooks-distance

1

Наскільки різні кубічні сплайни та обмежені сплайни?

Я багато читаю про використання сплайнів при різних проблемах регресії. Деякі книги (наприклад, Ходжес, рясно параметрізовані лінійні моделі ) рекомендують пенізовані сплайни. Інші (наприклад, регресійні стратегії моделювання регресії ) вибирають обмежені кубічні сплайни. Наскільки вони відрізняються на практиці? Чи часто ви отримуєте істотно різні результати від використання того чи іншого? …

11 regression splines

1

До чого відноситься термін "рідкісний попередній" (папір FBProphet)?

Читаючи статтю "Прогнозування на масштабі" (інструмент прогнозування FBProphet, див. Https://peerj.com/preprints/3190.pdf ), я натрапив на термін "рідкий попередній". Автори пояснюють, що вони використовували такий "рідкий попередній" при моделюванні вектора відхилень швидкостіδδ\mathbf{\delta} від деякої скалярної швидкості ккk, який є параметром моделі в логістичній моделі зростання. Як вони констатують це δj∼ Лаплас ( …

11 regression bayesian forecasting

1

Як обчислити показники достовірності в регресії (з випадковими лісами / XGBoost) для кожного прогнозу в R?

Чи є спосіб отримати оцінку достовірності (ми можемо назвати це також достовірністю або ймовірністю) для кожного прогнозованого значення при використанні таких алгоритмів, як Random Forests або Extreme Gradient Boosting (XGBoost)? Скажімо, цей показник довіри варіюватиметься від 0 до 1 і показує, наскільки я впевнений у певному прогнозі . З того, …

11 r regression random-forest prediction boosting

3

Проблеми з кодуванням із гарячим кодом та фіктивним кодуванням

Мені відомо про той факт, що категоричні змінні з k рівнями повинні бути кодовані змінними k-1 у фіктивній кодування (аналогічно для багатозначних категоріальних змінних). Мені було цікаво, якою проблемою є однокольорове кодування (тобто замість цього k змінних) через кодове кодування для різних методів регресії, в основному лінійної регресії, пеналізованої лінійної …

11 regression multiple-regression categorical-data many-categories

3

У чому переваги поетапної регресії?

Я експериментую з поступовою регресією заради різноманітності в моєму підході до проблеми. Отже, у мене є 2 питання: У чому переваги поетапної регресії? Які його конкретні сильні сторони? Що ви думаєте про гібридний підхід, коли ви використовуєте поетапну регресію для вибору функцій, а потім застосовуєте звичайну регресію, збираючи всі вибрані …

11 regression feature-selection stepwise-regression

2

Поступова регресія Гаусса

Я хочу здійснити поступову регресію процесу гауса, використовуючи розсувне вікно над точками даних, які надходять по черзі через потік. Дозволяє гddпозначають розмірність вхідного простору. Отже, кожен пункт даниххixix_i має гdd кількість елементів. Дозволяє нnn бути розміром розсувного вікна. Для того, щоб робити прогнози, мені потрібно обчислити зворотну грамматрицю КKK, де …

11 regression covariance gaussian-process linear-algebra online

5

Статистика тесту Дурбіна Уотсона

Я застосував тест DW до моєї регресійної моделі в R, і я отримав статистику тесту DW 1,78 і p-значення 2,2e-16 = 0. Чи означає це, що між залишками не існує автокореляції, тому що stat близький до 2 з невеликим p-значенням чи це означає, хоча stat є близьким до 2, p-значення …

11 r regression hypothesis-testing autocorrelation residuals

1

Чи не пов'язані оцінки коефіцієнтів регресії?

Розглянемо просту регресію (нормальність не передбачається): Yi= a + bХi+еi,Yi=a+bXi+ei,Y_i = a + b X_i + e_i, де еieie_i з середнім значенням 000 і стандартне відхилення σσ\sigma. Оцінки найменших квадратнихаaa і бbb некорельований?

11 regression correlation estimation

1

Припущення про нормальність при лінійній регресії

Як припущення про лінійну регресію, нормальність розподілу помилки іноді помилково "розширюється" або трактується як потреба в нормальності y або x. Чи можливо побудувати сценарій / набір даних, що там, де X і Y ненормальні, але термін помилки є, і тому отримані оцінки лінійної регресії є дійсними?

11 regression linear-model assumptions

1

Ефективність регресії керневого хребта

Регресія хребта може бути виражена як де - передбачувана мітка , в визначити матрицю, об'єкт , який ми намагаємося знайти мітку, і \ mathbf {X} п \ d раз матрицю п об'єктів \ mathbf { x} _i = (x_ {i, 1}, ..., x_ {i, d}) \ в \ mathbb {R} …

11 regression ridge-regression kernel-trick

2

Випадковий ліс за згрупованими даними

Я використовую випадковий ліс на високомірних згрупованих даних (50 числових вхідних змінних), які мають ієрахічну структуру. Дані були зібрані з 6-ти реплікацій на 30 позиціях 70 різних об'єктів, що призводить до 12600 точок даних, які не є незалежними. Здається, випадковий ліс надмірно підходить для даних, оскільки помилка oob набагато менша, …

11 regression random-forest

4

Чому методи регресії з найменшими квадратами та максимальною ймовірністю не є еквівалентними, коли помилки зазвичай не поширюються?

Назва говорить все це. Я розумію, що найменші квадрати та максимальна ймовірність дадуть однаковий результат для коефіцієнтів регресії, якщо помилки моделі нормально розподіляються. Але що станеться, якщо помилки нормально не поширюються? Чому ці два методи вже не рівнозначні?

10 regression normal-distribution maximum-likelihood least-squares error

Запитання з тегом «regression»