Статистика та великі дані t-test

2

У яких налаштуваннях довірчі інтервали не покращаться, оскільки розмір вибірки збільшується?

У публікації в блозі я знайшов твердження, що "Я вважаю, що WG Cochrane вперше зазначив (приблизно в 1970-х роках), що з довірчими інтервалами в умовах спостереження невеликі розміри вибірки призводять до кращого покриття достатньо великими зразками, що забезпечують майже нульове покриття!" Тепер я припускаю, що ширина CI повинна наближатися до …

11 confidence-interval t-test simulation

1

Чи завжди ступінь свободи для тесту Вельча менша, ніж коефіцієнт DF для об'єднаного тесту?

Я викладаю курс з основ статистики, і ми робимо t-тест для двох незалежних зразків з неоднаковими відхиленнями (тест Вельча). У наведених прикладах скоригована ступінь свободи, використовувана тестом Велча, завжди менша або дорівнює . n1+n2−2n1+n2−2n_1+n_2-2 Це завжди так? Чи завжди тест Велча знижує (або залишає без змін) ступінь свободи об'єднаного (рівних …

11 hypothesis-testing t-test

4

Як найкраще проаналізувати дані про тривалість перебування у лікарні на РКЗ?

Мені цікаво дізнатися, чи існує консенсус щодо оптимального способу аналізу даних про тривалість перебування в лікарні (ЛОС) від РКП. Зазвичай це дуже правильне перекошене розподіл, при якому більшість пацієнтів виписуються протягом кількох днів до тижня, але решта пацієнтів мають досить непередбачуване (а іноді і досить тривале) перебування, яке утворює правий …

11 t-test power skewness cox-model logrank

2

Який байєсівський аналог двопробного тесту з нерівними відхиленнями?

Я шукаю байєсівського аналога двопробного t-тесту з неоднаковими відхиленнями (тест Вельча). Я також шукаю багатоваріантний тест, на зразок статистики Хотелінга. Довідки оцінені. Для мультиваріантного випадку припустимо, що маємо і ( z 1 , ⋯ , z N ) , де y i (resp z i ) - це ярлик для …

11 correlation bayesian t-test heteroscedasticity

1

Розмір зразка, необхідний для визначення, який із набору рекламних оголошень має найвищу швидкість кліку

Я є дизайнером програмного забезпечення в галузі торгівлі, і працюю над проектом для клієнта, і хотів би переконатися, що мій аналіз є статистично обгрунтованим. Розглянемо наступне: у нас є n рекламних оголошень (n <10), і ми просто хочемо знати, яке оголошення найкраще. Наш сервер оголошень буде випадково розміщувати одну з …

11 anova sample-size t-test rule-of-thumb

1

R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?

У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

4

Як виконати t-тест з величезними зразками?

У мене дві популяції, одна з N = 38,704 (кількість спостережень) та інша з N = 1,313,662. Ці набори даних мають ~ 25 змінних, всі безперервні. Я взяв середнє значення кожного з кожного набору даних і обчислював тестову статистику за формулою t = середня різниця / STD помилка Проблема полягає …

11 t-test

4

Як візуалізувати незалежний два зразки t-тесту?

Які найприйнятніші способи візуалізації результатів незалежного двох вибіркових тестів? Чисельніша таблиця частіше використовується чи якийсь сюжет? Мета полягає у тому, щоб випадковий спостерігач подивився на фігуру і відразу побачив, що вони, ймовірно, з двох різних груп населення.

11 data-visualization t-test

1

У якій ситуації тест Вілкоксона з підписаним рейтингом буде кращим перед тестом t або тестуванням знаків?

Після деякої дискусії (нижче) у мене зараз чіткіше уявлення про цілеспрямоване питання, тому ось переглянуте питання, хоча деякі коментарі можуть здатися непов'язаними з початковим запитанням. Здається, що t-тести швидко сходяться для симетричних розподілів , що підписаний ранг передбачає симетрію , а для симетричного розподілу немає різниці між засобами / псевдомедіанами …

10 hypothesis-testing t-test paired-data wilcoxon-signed-rank sign-test

6

Як ми можемо дізнатися коливання населення?

У тестуванні гіпотез поширене питання - що таке дисперсія населення? Моє запитання - як ми можемо коли-небудь знати дисперсію населення? Якби ми знали весь розподіл, ми також могли б знати середню кількість всього населення. Тоді в чому сенс тестування гіпотез?

10 hypothesis-testing variance t-test z-test

3

D Коена для t-тесту залежного зразка

Швидке запитання: Я бачив, як Коен розраховував два різні способи для тестування залежних зразків (наприклад, в рамках зразків, що перевіряють ефективність ліків із термінами до / після). Використовуючи стандартне відхилення оцінки зміни в знаменнику рівняння для d Коена. Використовуючи стандартне відхилення попереднього тесту в знаменнику рівняння для d Коена. Я …

10 t-test effect-size

4

Як t-тест може бути статистично значущим, якщо середня різниця майже дорівнює 0?

Я намагаюся порівняти дані двох груп населення, щоб визначити, чи різниця між методами лікування є статистично значущою. Здається, набори даних зазвичай розподіляються з дуже невеликою різницею між двома наборами. Середня різниця - 0,00017. Я провів парний t-тест, очікуючи, що я не зможу відкинути нульову гіпотезу про різницю між засобами, однак, …

10 statistical-significance t-test paired-data

2

Що стосується t-випробування однієї вибірки, що відбувається, якщо в оцінці дисперсії середнє значення вибірки замінено на

Припустимо однопробний t-тест, де нульова гіпотеза . Тоді статистика t = ¯ x - μ 0μ=μ0μ=μ0\mu=\mu_0 використанням стандартного відхилення вибіркиs. Оцінюючиs, можна порівняти спостереження із середньою вибіркою¯x:t = x¯¯¯- мк0с / н√t=x¯−μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}сssсssх¯¯¯x¯\overline{x} .s = 1n - 1∑нi = 1( хi- х¯¯¯)2---------------√s=1n−1∑i=1n(xi−x¯)2s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2} Однак, якщо вважати, що заданий є істинним, можна …

10 mathematical-statistics variance t-test

2

Перевірте, чи люди відмовляються або зменшують ставки після повторних втрат

У мене є дані про серії виграшних та програшних ставок протягом 5 раундів ставок із виснаженням після кожного раунду. Я використовую дерево рішень на зразок наступного для відображення даних. Вузли до вершини дерева - це ті, що мають виграшні ставки, а ті, хто знаходиться внизу дерева, мають програші, які програють. …

10 t-test survival panel-data time-varying-covariate

1

Чи варто використовувати приблизний ступінь свободи Вельча (1947) або «Саттертвайт» (1946)?

Мене бентежить правильна формула для приблизних ступенів свободи використання тесту Вельча. Формула Satterthwaite (1946) - це найчастіше цитується формула, але Велч дав альтернативу в 1947 році. Я не впевнений, що є кращим (або використовується більшості статистичних програм). Формула : (s2x/nx+s2y/ny)2(s2x/nx)2/(nx−1)+(s2y/ny)2/(ny−1)(sx2/nx+sy2/ny)2(sx2/nx)2/(nx−1)+(sy2/ny)2/(ny−1)\frac{\left(s_x^2/n_x +s_y^2/n_y\right)^2}{(s_x^2/n_x )^2/(n_x-1)+(s_y^2/n_y )^2/(n_y-1)} Формула : −2+(s2x/nx+s2y/ny)2(s2x/nx)2/(nx+1)+(s2y/ny)2/(ny+1)−2+(sx2/nx+sy2/ny)2(sx2/nx)2/(nx+1)+(sy2/ny)2/(ny+1)-2+ \frac{\left(s_x^2/n_x +s_y^2/n_y\right)^2}{(s_x^2/n_x )^2/(n_x+1)+(s_y^2/n_y )^2/(n_y+1)} …

10 hypothesis-testing t-test degrees-of-freedom

Запитання з тегом «t-test»