Статистика та великі дані regression

1

Точний тест Фішера та гіпергеометричне поширення

Я хотів краще зрозуміти точний тест Фішера, тому я розробив наступний іграшковий приклад, де f і m відповідає чоловічому та жіночому, а n і y відповідає такому "споживання соди", як це: > soda_gender f m n 0 5 y 5 0 Очевидно, це різке спрощення, але я не хотів, щоб …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

Чому діагностика заснована на залишках?

У простій лінійній регресії часто хочеться перевірити, чи виконуються певні припущення, щоб можна було зробити висновок (наприклад, залишки зазвичай розподіляються). Чи доцільно перевіряти припущення, перевіряючи, чи правильно розміщені встановлені значення?

12 regression residuals diagnostic

3

Обчисліть невизначеність ухилу лінійної регресії на основі невизначеності даних

Як обчислити невизначеність ухилу лінійної регресії на основі невизначеності даних (можливо, в Excel / Mathematica)? Приклад: Маємо точки даних (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16), але кожне значення y має невизначеність 4. Більшість функцій, які я знайшов, обчислили б невизначеність як 0, оскільки точки ідеально відповідають функції y …

12 regression uncertainty

2

Гетероскедастичність і нормальність залишків

Я маю лінійну регресію, що досить добре, я думаю (це для університетського проекту, тому я не повинен бути дуже точним). Справа в тому, що якщо я побудую залишки проти передбачуваних значень, є (на думку мого вчителя) натяк на гетероскдастичність. Але якщо я побудую QQ-графік залишків, зрозуміло, що вони зазвичай розподіляються. …

12 regression normal-distribution residuals heteroscedasticity

2

Як сказати, чи є залишки автокорельовані з графікою

Коли ви робите регресію OLS та намічаєте отримані залишки, як ви можете визначити, чи є залишки автокорельовані? Я знаю, що для цього є тести (Дурбін, Бреш-Годфрі), але мені було цікаво, чи можна просто подивитися на сюжет, щоб оцінити, чи може бути автокореляція проблемою (адже для гетерокедастичності це зробити досить просто).

12 regression autocorrelation residuals

4

Які переваги має регресія Пуассона над лінійною регресією в даному випадку?

Мені було надано набір даних, що містить кількість нагород, отриманих студентами в одній середній школі, де передбачувачі кількості зароблених нагород включають тип програми, за якою студент був зарахований, та бал на їх підсумковому іспиті з математики. Мені було цікаво, чи може хтось мені сказати, чому лінійна регресійна модель може бути …

12 regression generalized-linear-model poisson-distribution count-data

2

Порівняння двох лінійних моделей регресії

Я хотів би порівняти дві моделі лінійної регресії, які представляють швидкість деградації мРНК протягом часу за двох різних умов. Дані для кожної моделі збираються незалежно. Ось набір даних. Журнал часу (годин) (обробка A), журнал (лікування B) 0 2,02 1,97 0 2,04 2,06 0 1,93 1,96 2 2,02 1,91 2 2,00 …

12 regression model-comparison

2

Вибір функцій та налаштування параметрів з оберегом для випадкових лісів

У мене є дані з кількома тисячами функцій, і я хочу зробити рекурсивний вибір функцій (RFE), щоб видалити неінформативні. Я роблю це з каретою та RFE. Однак я почав думати, якщо я хочу отримати найкращу регресію (наприклад, випадковий ліс), коли мені слід виконати налаштування параметрів ( mtryдля РФ)? Тобто, наскільки …

12 regression feature-selection random-forest caret

3

Зв'язок між двома часовими рядами: ARIMA

З огляду на наступні два часові ряди ( x , y ; див. Нижче), який найкращий метод моделювання взаємозв'язку між довгостроковими тенденціями в цих даних? Обидва часові ряди мають значні тести Дурбіна-Уотсона, коли їх моделюють як функцію часу, і не є стаціонарними (наскільки я розумію цей термін, чи це означає, …

12 regression time-series arima

3

Навіщо використовувати відсталий DV як інструментальну змінну?

Я успадкував деякий код аналізу даних, який, не будучи економістом, намагаюся зрозуміти. Одна модель виконує регресію інструментальних змінних із наступною командою Stata ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv) Цей набір даних є панеллю з декількома послідовними спостереженнями за цим набором змінних. Чому цей код використовує відсталі …

12 regression stata instrumental-variables

2

Чим відрізняється

Я читав про регресійні метрики в посібнику з python scikit-learn, і хоча кожен з них має власну формулу, я не можу інтуїтивно сказати, у чому різниця між R2R2R^2 та шкалою дисперсії, а отже, коли використовувати те чи інше для оцінки мого моделей.

12 regression variance scikit-learn r-squared model-evaluation

3

Виведення функції регульованої лінійної регресії лінійної регресії за курсом машинного навчання курсу

Я пройшов курс Ендрю Нґ «Машинне навчання» через Coursera кілька місяців тому, не звертаючи уваги на більшість математики / виведення, а натомість зосередився на впровадженні та практичності. З тих пір я почав вивчати деякі основні теорії і переглянув деякі лекції проф. Нг. Я читав його лекцію "Регульована лінійна регресія", і …

12 regression self-study

2

Інтерпретація логістичної регресійної моделі з декількома предикторами

Я здійснив багатоваріантну логістичну регресію, залежною від якої є зміна Y- смерть у будинку престарілих протягом певного періоду вступу, і я отримав такі результати (зауважте, якщо змінні починаються в Aній є безперервним значенням, а ті, що починаються з B, категоричні): Call: glm(Y ~ A1 + B2 + B3 + B4 …

12 r regression logistic

2

Як вектор змінних може представляти гіперплощину?

Я читаю Елементи статистичного навчання і на сторінці 12 (розділ 2.3) лінійну модель позначають як: Yˆ=XTβˆY^=XTβ^\widehat{Y} = X^{T} \widehat{\beta} ... де - це транспозиція вектора стовпців предикторів / незалежних змінних / входів. (Він раніше зазначав, що "всі вектори вважаються векторами стовпців", тож чи не це зробить вектором рядків і векторним …

12 regression references statistical-learning

1

Чому LKJcorr є гарним пріоритетом для кореляційної матриці?

Я читаю розділ 13 "Пригоди в коваріації" у ( чудовій ) книзі " Статистичне переосмислення " Річарда МакЛарета, де він подає таку ієрархічну модель: ( Rє кореляційною матрицею) Автор пояснює, що LKJcorrце слабоінформативний характер, який працює як регуляризуючий попередній для кореляційної матриці. Але чому це так? Які характеристики LKJcorrмає розподіл, …

12 regression self-study correlation prior hierarchical-bayesian

Запитання з тегом «regression»