Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Чи дає рівномірний розподіл багатьох р-значень статистичних доказів того, що H0 є правдою?
Один статистичний тест може свідчити про те, що нульова гіпотеза (H0) помилкова, і тому альтернативна гіпотеза (H1) є істинною. Але це не може бути використано, щоб показати, що H0 є істинним, оскільки відмова відхилити H0 не означає, що H0 є істинним. Але припустимо, у вас є можливість зробити статистичний тест …

4
Екстраполяція v. Інтерполяція
Яка різниця між екстраполяцією та інтерполяцією та яким є найточніший спосіб використання цих термінів? Наприклад, я бачив твердження в роботі, використовуючи інтерполяцію, як: "Процедура інтерполює форму оціночної функції між точками бін" Речення, яке використовує як екстраполяцію, так і інтерполяцію, наприклад: Попередній крок, де ми екстраполювали інтерпольовану функцію за допомогою методу …

3
Мозок-тизер: Яка очікувана довжина послідовності iid, яка монотонно збільшується, коли виводиться з рівномірного [0,1] розподілу?
Це питання для інтерв'ю для кількісної позиції аналітика, про яку тут повідомляється . Припустимо, ми виводимо з рівномірного розподілу, а розіграші - iid, яка очікувана довжина монотонно зростаючого розподілу? Тобто, ми припиняємо малювати, якщо поточний малюнок менший або рівний попередньому розіграшу.[0,1][0,1][0,1] Я отримав перші кілька: \ Pr (\ текст {length} …

2
Білий шум у статистиці
Я часто бачу, що термін білий шум з'являється, читаючи про різні статистичні моделі. Але я повинен визнати, що я не зовсім впевнений, що це означає. Зазвичай її скорочують як WN( 0 , σ2)WN(0,σ2)WN(0,σ^2) . Чи означає це, що він зазвичай розповсюджується або він може слідкувати за будь-яким розподілом?


1
Чи є факторний аналіз або PCA для порядкових або двійкових даних?
Я завершив аналіз основних компонентів (PCA), дослідницький факторний аналіз (EFA) та підтверджуючий факторний аналіз (CFA), обробляючи дані за шкалою Likert (5-рівневі відповіді: немає, мало, деякі, ..) як безперервний змінна. Потім, використовуючи Lavaan, я повторив CFA, визначаючи змінні як категоричні. Мені хотілося б знати, які типи аналізів підходили б і були …

1
Наскільки неправильною є модель регресії, коли припущення не виконуються?
Під час встановлення регресійної моделі, що відбувається, якщо припущення виходів не виконані, зокрема: Що станеться, якщо залишки не є гомосептичними? Якщо залишки показують зростаючу чи зменшувальну картину в графіку Залишкові та Пристосовані. Що станеться, якщо залишки нормально не поширюються і не виконають тест Шапіро-Вілка? Тест на нормальність Шапіро-Вілка є дуже …

1
Наближення функції втрати XGBoost з розширенням Тейлора
Як приклад, візьміть об'єктивну функцію моделі XGBoost на ttt -й ітерації: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) де ℓℓ\ell функція втрат, ftftf_t є ttt «го вихідного дерева і ΩΩ\Omega є регуляризація. Одним із (багатьох) ключових кроків для швидкого обчислення є наближення: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), де gigig_i і hihih_i є першою та другою похідними функції втрат. Мене …

2
Чому p-значення вводять в оману після поетапного вибору?
Розглянемо, наприклад, модель лінійної регресії. Я чув, що при обробці даних після поетапного відбору, заснованого на критерії AIC, оманливим є перегляд p-значень для перевірки нульової гіпотези про те, що кожен справжній коефіцієнт регресії дорівнює нулю. Я чув, що слід вважати, що всі змінні, залишені в моделі, мають справжній коефіцієнт регресії, …

7
Поняття статистики, щоб пояснити, чому ви рідше перевертаєте таку ж кількість головок, що і хвостики, оскільки кількість обертів збільшується?
Я працюю над вивченням ймовірності та статистики, читаючи кілька книг і записуючи якийсь код, і, моделюючи монети, перевернув монету, я помітив щось, що мене вражало як трохи протилежне до наївної інтуїції. Якщо ви перевернете справедливу монету разів, відношення головок до хвостів збільшиться до 1 у міру збільшення , саме так, …

1
Чому моє отримання рішення ласо для закритої форми є неправильним?
Проблема з ласою має рішення закритої форми: \ beta_j ^ {\ текст {lasso}} = \ mathrm {sgn} (\ beta ^ {\ текст {LS}} _ j) (| \ beta_j ^ {\ текст {LS }} | - \ alpha) ^ + якщо X має ортонормальні стовпці. Це було показано в цій темі: …

1
Значення "Частота" для даних інтервалів секунд / хвилин у R
Я використовую моделі R (3.1.1) та ARIMA для прогнозування. Я хотів би знати, яким повинен бути параметр "частота", який призначається у ts()функції , якщо я використовую дані часових рядів, які є: розділяється на хвилини і поширюється на 180 днів (1440 хвилин / день) розділена на секунди і поширюється на 180 …

2
Чому регрес хребта glmnet дає мені іншу відповідь, ніж ручний розрахунок?
Я використовую glmnet для розрахунку оцінок регресії хребта. Я отримав певні результати, які змусили мене підозріти в тому, що glmnet справді робить те, що, на мою думку, це робить. Щоб перевірити це, я написав простий R-скрипт, де я порівнюю результат регресії хребта, виконаного рішенням, і той, який є в glmnet, …


5
Різниця між байєсівськими мережами та процесом Маркова?
Чим відрізняється Байєсова мережа від процесу Маркова? Я вважав, що розумію принципи обох, але тепер, коли мені потрібно порівняти два, я відчуваю себе втраченим. Вони означають для мене майже те саме. Звичайно, це не так. Також вдячні посилання на інші ресурси.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.