Статистика та великі дані modeling

11

Чи є якась причина віддавати перевагу AIC або BIC перед іншими?

AIC і BIC - це обидва методи оцінки відповідності моделі, що штрафується за кількістю оцінюваних параметрів. Наскільки я розумію, BIC карає моделі більше за вільні параметри, ніж AIC. Крім переваг, що ґрунтуються на строгості критеріїв, чи є інші причини віддати перевагу AIC перед BIC або навпаки?

222 modeling aic cross-validation bic model-selection

3

Як дізнатися, що проблема з машинним навчанням безперспективна?

Уявіть стандартний сценарій машинного навчання: Ви стикаєтесь з великим багатофакторним набором даних і маєте досить розмите розуміння цього. Що вам потрібно зробити, це зробити передбачення щодо якоїсь змінної на основі того, що у вас є. Як завжди, ви очищаєте дані, переглядаєте описову статистику, запускаєте деякі моделі, перехресне підтверджуєте їх тощо, …

207 machine-learning forecasting modeling model-selection forecastability

17

Включаючи взаємодію, але не основні ефекти в моделі

Чи колись дійсно включати в модель двосторонню взаємодію без включення основних ефектів? Що робити, якщо ваша гіпотеза стосується лише взаємодії, чи все-таки потрібно включати основні ефекти?

85 regression modeling interaction regression-coefficients

24

Основні правила для "сучасної" статистики

Мені подобається книга G van Belle « Статистичні правила великого пальця» , і меншою мірою поширені помилки в статистиці (і як їх уникнути) від Філіппа I Good та Джеймса У. Хардіна. Вони стосуються загальних підводних каменів під час інтерпретації результатів експериментальних та спостережних досліджень та надають практичні рекомендації щодо статистичних …

85 modeling eda rule-of-thumb

7

Яка користь від розриву суцільної змінної предиктора?

Мені цікаво, яке значення має взяття суцільної змінної предиктора та розбиття його (наприклад, на квінтили), перш ніж використовувати його в моделі. Мені здається, що, поширюючи змінну, ми втрачаємо інформацію. Це просто так, щоб ми могли моделювати нелінійні ефекти? Якби ми зберігали змінну безперервною, і це насправді не було прямим лінійним …

78 regression modeling continuous-data binning regression-strategies

14

Що означає "Усі моделі неправильні, але деякі корисні"

"По суті, всі моделі неправильні, але деякі корисні." --- Коробка, Джордж ЕП; Норман Р. Дрейпер (1987). Емпірична побудова моделі та поверхні реагування, с. 424, Вілі. ISBN 0471810339. Яке саме значення має наведена фраза?

76 modeling

6

Модель прогнозування кількості переглядів Youtube стилю Gangnam

Музичне відео PSY "Gangnam style" популярне, через трохи більше ніж 2 місяці його налічує близько 540 мільйонів глядачів. Про це я дізнався від своїх дітей, що перебувають у дванадцятирічному віці, на обіді минулого тижня, і незабаром дискусія пішла в бік того, чи можна зробити якесь передбачення, скільки глядачів буде за …

73 modeling web

5

Використання k-кратної перехресної перевірки для вибору моделі часових рядів

Запитання: Я хочу бути впевненим у чомусь, чи просто використання перехресної валідації k із кратною послідовністю із часовими рядами чи це потрібно звернути особливу увагу, перш ніж її використовувати? Передумови: я моделюю часовий ряд на 6 років (із напівмарковним ланцюгом) із зразком даних кожні 5 хв. Для порівняння декількох моделей …

70 time-series modeling cross-validation

7

Чи потрібні всі терміни взаємодії в індивідуальній регресійній моделі?

Я фактично переглядаю рукопис, де автори порівнюють 5-6 моделей регресії логіту з AIC. Однак деякі моделі мають умови взаємодії, не включаючи окремі коваріатні терміни. Чи має сенс це робити? Наприклад (не характерно для моделей logit): M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: …

68 regression modeling interaction aic

11

Чому я повинен бути байесівцем, коли моя модель помиляється?

Правки: Я додав простий приклад: висновок про середнє значення . Я також трохи уточнив, чому вірні інтервали, що не відповідають довірчим інтервалам, є поганими.XiXiX_i Я, досить побожний байесів, перебуваю в середині кризи віри. Моя проблема полягає в наступному. Припустимо, що я хочу проаналізувати деякі дані IID . Що я б …

68 bayesian modeling philosophical misspecification

6

Варіабельний вибір для прогнозного моделювання дійсно потрібен у 2016 році?

Це питання було задано в CV кілька років тому, але, здається, варто зробити репост з огляду на 1) на порядок кращу обчислювальну технологію (наприклад, паралельні обчислення, HPC тощо) та 2) новіші методи, наприклад [3]. По-перше, якийсь контекст. Припустимо, мета - не тестування гіпотез, не оцінка ефекту, а прогнозування на невидимому …

67 machine-learning modeling feature-selection model-selection prediction

4

Чому включення широти та довготи в обліковий запис GAM для просторової автокореляції?

Я створив узагальнені моделі добавок для вирубки лісів. Для обліку просторової автокореляції я включив широту та довготу як згладжений термін взаємодії (тобто s (x, y)). Я ґрунтувався на цьому, читаючи багато робіт, де автори кажуть: «для обліку просторової автокореляції координати точок були включені як згладжені терміни», але вони ніколи не …

60 r modeling spatial autocorrelation gam

6

Що таке "насичена" модель?

Що мається на увазі, коли ми говоримо, що у нас є насичена модель?

58 modeling regression

3

Змінні часто коригуються (наприклад, стандартизовані) перед виготовленням моделі - коли це гарна ідея, а коли погана?

За яких обставин ви хочете чи не хочете масштабувати або стандартизувати змінну до монтажу моделі? І які переваги / недоліки масштабування змінної?

56 modeling predictive-models feature-selection theory standardization

3

Що так класно в теоремі уявлення де Фінетті?

З теорії статистики Марка Дж. Шервіша (стор. 12): Хоча теорема репрезентації DeFinetti 1.49 є ключовою для мотивації параметричних моделей, вона фактично не використовується в їх реалізації. Яким чином теорема має головне значення для параметричних моделей?

55 probability modeling mathematical-statistics parametric

Запитання з тегом «modeling»