Статистика та великі дані regression

4

Чому лінійна регресія та ANOVA дають різні

Я намагався встановити дані часових рядів (без повторів) за допомогою регресійної моделі. Дані виглядають так: > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 …

22 r regression statistical-significance anova p-value

1

Загальні статистичні тести як лінійні моделі

(ОНОВЛЕННЯ: Я заглибився в це глибше і опублікував результати тут ) Список названих статистичних тестів величезний. Багато із загальних випробувань покладатися на умовиводи від простих лінійних моделей, наприклад, один-зразок Т-тест тільки у = β + ε , який перевіряється на нуль моделі у = μ + ε то , що …

22 regression correlation anova t-test linear-model

3

Як термін помилки регресії коли-небудь можна співвіднести із пояснювальними змінними?

У першому реченні цієї сторінки вікі стверджується, що "В економетрії проблема ендогенності виникає, коли пояснювальна змінна співвідноситься з терміном помилки. 1 " Моє запитання: як це може статися? Чи не вибрано бета-регресію таким чином, щоб термін помилки був ортогональним для стовпчика простору матриці проектування?

22 regression

9

Як визначити впевненість прогнозу нейронної мережі?

Щоб проілюструвати моє запитання, припустимо, що у мене є навчальний набір, де вхід має ступінь шуму, але вихід, наприклад, не має; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] тут вихід …

22 regression machine-learning neural-networks confidence-interval prediction-interval

3

Розуміння парадоксу Сімпсона: приклад Ендрю Гелмана з регресуванням доходу від сексу та зросту

Ендрю Гелман в одному зі своїх останніх публікацій у блозі говорить: Я не думаю, що для парадоксу Сімпсона необхідні контрфакти або потенційні результати. Я говорю це тому, що можна встановити парадокс Сімпсона зі змінними, якими неможливо маніпулювати, або для яких маніпуляції не мають безпосереднього інтересу. Парадокс Сімпсона є частиною більш …

22 regression interaction simpsons-paradox

2

Тест Уолда на регресію (OLS та GLM): t-z-розподіл

Я розумію , що тест Вальда для коефіцієнтів регресії заснований на наступному властивості , який містить асимптотично (наприклад Вассермана (2006): All статистики , сторінки 153, 214-215): деβпозначає розрахунковий коефіцієнт регресії,^з(β)позначає стандартну помилку коефіцієнта регресії іβ0є значенням процентного (β-зазвичай0 перевірити, чи коефіцієнт значно відрізняється від 0). Отже,тестрозміруαWald такий: відхилитиH0,коли| W| >zα/(β^−β0)seˆ(β^)∼N(0,1)(β^−β0)se^(β^)∼N(0,1) …

22 r regression hypothesis-testing generalized-linear-model

3

Чому Ларс і Глмнет дають різні рішення для проблеми Лассо?

Я хочу краще зрозуміти пакети R Larsі Glmnet, які використовуються для вирішення задачі Лассо: (проpзмінні таNзразків, див.www.stanford.edu/~hastie/Papers/glmnet.pdfна сторінці 3)м я н( β0β) ∈ Rр + 1[ 12 Н∑i = 1N( уi- β0- хТiβ)2+ λ | | β| |л1]мiн(β0β)∈Rp+1[12N∑i=1N(уi-β0-хiТβ)2+λ||β||л1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppNNN Тому я застосував їх …

22 r regression machine-learning lasso regularization

5

Відбір проб для незбалансованих даних в регресії

Були хороші запитання щодо поводження з незбалансованими даними в контексті класифікації , але мені цікаво, що люди роблять для вибірки регресії. Скажімо, проблемний домен дуже чутливий до знаку, але лише дещо чутливий до величини цілі. Однак величина досить важлива, щоб модель мала регресію (суцільна ціль), а не класифікацію (позитивні та …

22 regression sampling unbalanced-classes

5

Сира чи ортогональна поліноміальна регресія?

Я хочу повернути змінну на x , x 2 , … , x 5 . Чи слід це робити за допомогою сирих або ортогональних многочленів? Я переглянув питання на сайті, яке займається цим, але я не розумію, в чому різниця між їх використанням. yyyx,x2,…,x5x,x2,…,x5x,x^2,\ldots,x^5 Чому я не можу просто зробити …

22 r regression polynomial

1

Видалення одного з стовпців при використанні однокольорового кодування

Я розумію, що при машинному навчанні це може бути проблемою, якщо ваш набір даних має дуже корельовані функції, оскільки вони ефективно кодують ту саму інформацію. Нещодавно хтось зазначав, що коли ви робите одноразове кодування за категоріальною змінною, ви отримуєте корельовані функції, тому вам слід відкинути один із них як "посилання". …

22 regression machine-learning categorical-data discrete-data categorical-encoding

4

Різниця між припущеннями, що лежать в основі кореляції, і значущі тести регресійного нахилу

Моє запитання виріс із обговорення з @whuber в коментарях до іншого питання . Зокрема, коментар @whuber був такий: Однією з причин, яка може вас здивувати, є те, що припущення, що лежать в основі тесту кореляції та тесту регресійного нахилу, різні - тож навіть коли ми розуміємо, що кореляція та нахил …

21 regression correlation p-value assumptions

1

Anscombe-подібні набори даних із тим самим графіком вікон і вусів (середнє / std / медіан / MAD / хв / макс)

EDIT: Оскільки це питання завищене, підсумок: пошук різних значущих та інтерпретованих наборів даних із однаковою змішаною статистикою (середня, середня, середня та їх пов’язана дисперсія та регресія). Квартет Anscombe (див. Призначення візуалізації даних високих розмірів? ) - відомий приклад чотирьох наборів даних - , з однаковим граничним середнім / стандартним відхиленням …

21 regression descriptive-statistics curve-fitting estimators

2

Додавання ваг до логістичної регресії для незбалансованих даних

Я хочу моделювати логістичну регресію з незбалансованими даними (9: 1). Я хотів спробувати параметр ваг у glmфункції у R, але я не на 100% впевнений, що це робить. Скажімо, моя вихідна змінна c(0,0,0,0,0,0,0,0,0,1). тепер я хочу надати «1» вагу в 10 разів більше. тому я навожу аргумент ваг weights=c(1,1,1,1,1,1,1,1,1,1,1,10). Коли …

21 regression logistic classification unbalanced-classes weighted-data

2

Чому нормальність залишків "ледве важлива взагалі" для оцінки лінії регресії?

Гельман і Хілл (2006) на p46 пишуть, що: Припущення регресії, яке, як правило, є найменш важливим, полягає в тому, що помилки зазвичай розподіляються. Насправді, для оцінки лінії регресії (порівняно з прогнозуванням окремих точок даних) припущення про нормальність ледве важливе. Таким чином, на відміну від багатьох регресійних підручників, ми не рекомендуємо …

21 regression residuals assumptions

1

Яка різниця між логістичною та логітною регресією?

Яка різниця між логістичною та логітною регресією? Я розумію, що вони схожі (чи навіть те саме), але чи могла б хтось пояснити різницю між цими двома? Є один про шанси?

21 regression logistic terminology logit odds

Запитання з тегом «regression»