Статистика та великі дані

16

Які неправильно використані статистичні терміни варто виправити?

Статистика є скрізь; Однак загальне використання статистичних термінів часто є незрозумілим. Терміни ймовірність та коефіцієнти використовуються як взаємозамінні в просторовій англійській мові, незважаючи на їх чітко визначені та різні математичні вирази. Не відокремлюючи термін ймовірність від ймовірності, звичайно бентежить лікарів, які намагаються кількісно оцінити ймовірність раку молочної залози, отримавши позитивну …

103 terminology

19

Як дратувати статистичного арбітра?

Нещодавно я задав питання щодо загальних принципів щодо перегляду статистичних даних у документах . Зараз я хотів би запитати, що особливо дратує вас при перегляді документа, тобто який найкращий спосіб насправді дратувати статистичного арбітра! Приклад на відповідь, будь ласка.

102 references referee

5

Різниці між перехресною валідацією та завантажувальною програмою для оцінки похибки прогнозування

Я хотів би, щоб ваші думки щодо відмінностей між перехресною валідацією та завантажувальною програмою оцінили помилку прогнозування. Чи працює краще для невеликих розмірів наборів даних або великих наборів даних?

102 cross-validation predictive-models bootstrap

2

Видалення статистично значущого перехоплюючого терміну збільшує у лінійній моделі

У простій лінійній моделі з єдиною пояснювальною змінною, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Я вважаю, що видалення терміна перехоплення значно покращує придатність (значення йде від 0,3 до 0,9). Однак термін перехоплення виявляється статистично значущим.R2R2R^2 З перехопленням: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min …

101 r linear-model interpretation r-squared intercept

3

Пакетний градієнтний спуск порівняно зі стохастичним градієнтом

Припустимо, у нас є якийсь навчальний набір для . Припустимо також, що ми використовуємо певний тип алгоритму керованого навчання на навчальному наборі. Гіпотези представлені у вигляді . Нам потрібно знайти параметри які мінімізують "відстань" між і . Нехай(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} …

101 optimization gradient-descent sgd

8

ASA обговорює обмеження -значень - які альтернативи?

У нас вже є кілька потоків, позначених як p-значення, які виявляють багато непорозумінь щодо них. Десять місяців тому у нас була нитка про психологічний журнал, який "заборонив" -значенняppp р , зараз Американська статистична асоціація (2016) каже, що з нашим аналізом ми "не повинні закінчуватися обчисленням -значення".ppp Американська статистична асоціація (ASA) …

100 hypothesis-testing bayesian p-value frequentist

10

Яка різниця між кореляцією та простою лінійною регресією?

Зокрема, я маю на увазі коефіцієнт кореляції Pearson продукт-момент.

99 correlation regression

14

Книги для самостійного вивчення часових рядів?

Я почав з аналізу часових рядів Гамільтона, але я втрачаю безнадійно. Ця книга насправді занадто теоретична для мене, щоб її навчитися самостійно. Хтось має рекомендацію до підручника з аналізу часових рядів, який підходить для самостійного вивчення?

99 time-series self-study references

9

Чи справді це працює як p-значення? Чи може мільйон наукових робіт на рік базуватися на чистому випадковості?

Я дуже новачок у статистиці, і я просто вчусь розуміти основи, включаючи . Але зараз у мене в голові величезний знак запитання, і я сподіваюся, що моє розуміння неправильне. Ось мій процес мислення:ppp Чи не всі дослідження в усьому світі дещо схожі на мавп у "нескінченній теоремі мавп"? Врахуйте, що …

98 hypothesis-testing statistical-significance p-value

25

Розміщення вільно доступних зразків даних

Я працював над новим методом аналізу та аналізу наборів даних для ідентифікації та ізоляції підгруп населення без попереднього усвідомлення особливостей будь-якої підгрупи. Хоча метод досить добре працює зі штучними зразками даних (тобто наборами даних, створеними спеціально для ідентифікації та сегрегації підмножини населення), я хотів би спробувати протестувати його з живими …

98 dataset sample population teaching

1

Дерева умовного висновку проти дерев традиційних рішень

Чи може хто-небудь пояснити первинні відмінності між умовними деревами висновку ( ctreeвід partyпакета в R) порівняно з більш традиційними алгоритмами дерева рішень (наприклад, rpartв R)? Що робить дерева CI різними? Сильні і слабкі сторони? Оновлення: я розглянув статтю Horthorn та ін, про яку в коментарях посилається Чи. Я не зміг …

97 r machine-learning cart

9

Яка різниця між лінійною регресією на y з x і x з y?

Коефіцієнт кореляції Пірсона x і y є однаковим, незалежно від того, чи обчислюєте ви грушу (x, y) або pearson (y, x). Це говорить про те, що робити лінійну регресію y, заданої x або x, заданої y, слід однаково, але я не думаю, що це так. Чи може хтось пролити світло, …

97 regression correlation linear-model pearson-r

6

Чому норма L1 для розріджених моделей

Я читаю книги про лінійну регресію. Про норми L1 та L2 є кілька речень. Я їх знаю, просто не розумію, чому норма L1 для розріджених моделей. Чи може хтось використати дати просте пояснення?

97 regression lasso regularization ridge-regression

3

Інтуїтивне пояснення одиничного кореня

Як би ви пояснили інтуїтивно, що таке одиничний корінь, у контексті тесту одиничного кореня? Я роздумую над способами пояснення так, як це я заснував у цьому питанні . Справа з одиничним коренем полягає в тому, що я знаю (мало, до речі), що тест одиничного кореня використовується для перевірки стаціонарності в …

97 intuition unit-root

4

Різниця між стандартною помилкою та стандартним відхиленням

Я намагаюся зрозуміти різницю між стандартною помилкою та стандартним відхиленням. Чим вони відрізняються і чому потрібно вимірювати стандартну помилку?

96 mean standard-deviation standard-error intuition