Статистика та великі дані hypothesis-testing

2

Чому неправильно зупиняти тест A / B до досягнення оптимального розміру вибірки?

Я відповідаю за те, щоб представити результати моїх / тестових робіт (на веб-сайтах) у моїй компанії. Ми проводимо тест протягом місяця, а потім перевіряємо р-значення через рівні проміжки часу, поки не досягнемо значущості (або відмовляємося, якщо значущість не буде досягнута після тривалого запуску тесту), те, що я зараз з’ясовую, є …

13 hypothesis-testing statistical-significance bias ab-test optimal-stopping

8

Тестування алгоритмів генерації випадкових змінних

Які методи використовуються для тестування алгоритмів генерації випадкових змінних?

12 algorithms hypothesis-testing random-variable random-generation

5

Визначення розміру вибірки перед початком експерименту чи нескінченний запуск експерименту?

Я вивчав статистику років тому і все це забув, тому це може здатися загальним концептуальним питанням, ніж будь-що конкретне, але ось моє питання. Я працюю на веб-сайті електронної комерції як дизайнер UX. У нас є система тестування A / B, яка була побудована років тому, і я починаю сумніватися в …

12 hypothesis-testing sample-size sequential-analysis

3

Чому кілька (якщо не всі) параметричних тестів на гіпотезу припускають випадкову вибірку?

Тести, такі як Z, t та кілька інших, припускають, що дані базуються на випадковій вибірці. Чому? Припустимо, я роблю експериментальні дослідження, де я дбаю набагато більше про внутрішню обгрунтованість, ніж про зовнішню. Отже, якщо мій зразок може бути трохи упередженим, добре, як я прийняв не виводити гіпотезу для цілих груп …

12 hypothesis-testing sampling parametric randomness

2

Як жорстко обгрунтувати вибрані помилково-позитивні / хибно-негативні коефіцієнти помилок та базовий коефіцієнт витрат?

Контекст Група соціологів та статистиків ( Benjamin et al., 2017 ) нещодавно висловили припущення, що типовий хибнопозитивний показник ( = .05), який використовується як поріг для визначення "статистичної значущості", повинен бути пристосований до більш консервативного порогу ( α = .005). Конкуруюча група соціологів та статистиків ( Lakens et al., 2018 …

12 hypothesis-testing p-value power type-i-and-ii-errors

2

Чи виграні змагання з Kaggle випадково?

Змагання з Kaggle визначають остаточний рейтинг на основі проведеного тестового набору. Проведений тестовий набір - зразок; він може не репрезентувати населення, яке моделюється. Оскільки кожне подання схоже на гіпотезу, алгоритм, який виграв змагання, може, як правило, збігатися з тестовим набором краще, ніж інші. Іншими словами, якби обраний інший тестовий набір …

12 machine-learning probability hypothesis-testing sample kaggle

1

Використовуйте для перевірки гіпотези, що оскільки швидкість конвергенції?

Припустимо, у мене це iid, і я хочу зробити тест на гіпотезу, що дорівнює 0. Припустимо, у мене є великий n і я можу використовувати теорему центрального граничного значення. Я також міг би зробити тест, що дорівнює 0, що має бути еквівалентно тестуванню, що дорівнює 0. Далі, переходить до chi-квадрата, …

12 hypothesis-testing convergence delta-method

2

Використання lm для 2-пробного тесту на пропорцію

Я деякий час використовував лінійні моделі для виконання тестів на 2 вибірки, але зрозумів, що це може бути не зовсім коректно. Здається, що використання узагальненої лінійної моделі з двочленним сімейством + ідентифікаційним зв’язком дає саме непідкупчені 2-вибіркові пропорційні результати тесту. Однак використання лінійної моделі (або glm з гауссова сім'я) дає …

12 r hypothesis-testing generalized-linear-model proportion

1

Тест на придатність у логістичній регресії; яку "форму" ми хочемо протестувати?

Я маю на увазі питання та його відповіді: Як порівняти (ймовірність) прогнозованої здатності моделей, розроблених за допомогою логістичної регресії? автор @Clark Chong та відповіді / коментарі від @Frank Harrell. і до питання Ступені свободи у тесті Хосмера-Лемешоуχ2χ2\chi^2 та коментарі. Я прочитав статті Д. В. Хосмера, Т. Хосмера, С. Ле Чессі, …

12 hypothesis-testing logistic predictive-models regression-strategies hosmer-lemeshow-test

1

Яка різниця між "тестуванням гіпотез" та "вибором моделі"?

У літературі обидва терміни часто вживаються синонімічно або переплітаються. Зараз я намагаюся знайти чітке розмежування обох термінів. З моєї точки зору, гіпотеза зазвичай виражається за допомогою моделі. Тож навіть якщо ми перевіряємо гіпотезу нуля проти альтернативи, з моєї точки зору ми робимо вибір моделі. Чи може хтось дати мені інтуїтивну …

12 hypothesis-testing model-selection regression-strategies

5

Як виконати імпутацію значень у дуже великій кількості точок даних?

У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Чому цей розподіл рівномірний?

Ми досліджуємо байєсівські статистичні випробування, і натрапимо на дивне (на мене принаймні) явище. Розглянемо наступний випадок: нас цікавить вимірювання того, яке населення, А чи В, має більш високий коефіцієнт конверсії. Для перевірки встановлюємо , тобто ймовірність конверсії однакова в обох групах. Ми створюємо штучні дані за допомогою біноміальної моделі, наприкладpA=pBpA=pBp_A …

12 hypothesis-testing bayesian binomial python beta-distribution

1

Як виконати тест завантаження для порівняння засобів двох зразків?

У мене є два сильно перекошених зразка і я намагаюся використовувати завантажувальний аналіз, щоб порівняти їх засоби, використовуючи t-статистику. Яка правильна процедура зробити це? Процес, який я використовую Мене хвилює доцільність використання стандартної помилки вихідних / спостережуваних даних на останньому етапі, коли я знаю, що це нормально не поширюється. Ось …

12 hypothesis-testing t-test bootstrap

1

Якщо розподіл тестової статистики є бімодальним, чи значення p означає щось?

Р-значення визначається ймовірністю отримання тестової статистики принаймні такою ж крайньою, як і те, що спостерігається, якщо вважати, що нульова гіпотеза є істинною. Іншими словами, П( X≥ t | Н0)П(Х≥т|Н0)P( X \ge t | H_0 ) Але що робити, якщо тестова статистика має бімодальний розподіл? чи значення p означає щось у …

12 hypothesis-testing statistical-significance p-value descriptive-statistics bimodal

1

Чому F-тест у лінійних моделях Гаусса найпотужніший?

Y= μ + σГY=μ+σGY=\mu+\sigma Gмкμ\muWWWГGGRнRn\mathbb{R}^nЖFFН0: { μ ∈ U}H0:{μ∈U}H_0\colon\{\mu \in U\}U⊂ ШU⊂WU \subset Wf= ϕ ( 2 логсупμ ∈ W, σ> 0L ( μ , σ| у)супμ ∈ U, σ> 0L ( μ , σ| у)) .f=ϕ(2log⁡supμ∈W,σ>0L(μ,σ|y)supμ∈U,σ>0L(μ,σ|y)).f=\phi\left( 2\log \frac{\sup_{\mu \in W, \sigma>0} L(\mu, \sigma | y)}{\sup_{\mu \in U, \sigma>0} L(\mu, …

12 hypothesis-testing normal-distribution linear-model power likelihood-ratio

Запитання з тегом «hypothesis-testing»