Статистика та великі дані

2

Докази техногенного глобального потепління вражають «золотим стандартом»: як вони це зробили?

Це повідомлення у статті Reuter від 25.02.2019 наразі в усіх новинах: Докази для техногенного глобального потепління вражає "золотим стандартом" [Вчені] заявили, що впевненість у тому, що людська діяльність піднімає тепло на поверхні Землі, досягла рівня "п’ять сигм", статистичний датчик означає, що існує лише шанс на мільйон, що сигнал з’явиться, якби …

35 p-value intuition application communication climate

11

Середнє абсолютне відхилення проти стандартного відхилення

У підручнику «Нова всеосяжна математика для рівня O» Грера (1983) я бачу усереднене відхилення, обчислене так: Підсумуйте абсолютні різниці між одиничними значеннями та середніми. Тоді отримайте його середнє значення. У розділі використовується термін середнє відхилення . Але я нещодавно бачив кілька посилань, які використовують термін стандартне відхилення, і це те, …

35 distributions standard-deviation frequency variability

8

Випадкова хода по краях куба

Мурашка поміщена в кут куба і не може рухатися. Павук починається з протилежного кута і може рухатися по краях куба в будь-якому напрямку з однаковою ймовірністю . У середньому, скільки кроків знадобиться павукові, щоб дістатися до мурашки?(x,y,z)(x,y,z)(x,y,z)1/31/31/3 (Це не домашнє завдання, це питання інтерв'ю.)

35 probability random-walk

1

Виявлення випускників у часових рядах (LS / AO / TC) за допомогою пакету tsoutliers в Р. Як представити форматів у форматі рівнянь?

Коментарі: По-перше, я хотів би сказати велике спасибі авторові нового пакету tsoutliers, який реалізує виявлення зовнішнього часу Чен та Лю, який був опублікований в Журналі Американської статистичної асоціації в 1993 році в програмному забезпеченні Open Source .RRR Пакет ітераційно виявляє 5 різних типів випускників у даних часових рядів: Адитивна добавка …

35 time-series forecasting arima outliers

1

Логістична регресія: тест anova chi-kvadrat порівняно зі значенням коефіцієнтів (anova () vs summary () у R)

У мене є логістична модель GLM з 8 змінними. Я провів тест-ква-квадрат у R anova(glm.model,test='Chisq')та 2 змінних виявились прогнозними, коли упорядковано у верхній частині тесту, і не так сильно, коли замовлено внизу. Напрошується summary(glm.model)думка, що їх коефіцієнти незначні (високе р-значення). У цьому випадку здається, що змінні не є істотними. Мені …

35 r regression logistic statistical-significance generalized-linear-model

3

Як довести, що радіальною базовою функцією є ядро?

Як довести, що функція радіальної основи є ядром? Наскільки я розумію, щоб довести це, ми повинні довести одне з наступного:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Для будь-якого набору векторів матриця = - це додатне напіввизначене.x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} Можна подати відображення наприклад = .ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle …

35 svm kernel-trick

3

Суперечність суттєвості в лінійній регресії: суттєвий t-тест на коефіцієнт проти несуттєвої загальної F-статистики

Мені підходить декілька лінійних регресійних моделей між 4 категоричними змінними (з 4 рівнями кожна) та числовим результатом. У моєму наборі даних є 43 спостереження. Регресія дає мені такі ppp -значення від -тесту для кожного коефіцієнта нахилу: . Таким чином, коефіцієнт для 4-го предиктора є значущим на рівні довіри .ттt.15 , …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

4

Різниця між поздовжнім дизайном та часовим рядом

Яка / чи є різниця (і) між поздовжньою конструкцією та часовим рядом?

35 time-series panel-data

5

Безкоштовний набір даних для дуже високої розмірної класифікації [закрито]

Що таке вільно доступний набір даних для класифікації з більш ніж 1000 ознаками (або зразкові точки, якщо вони містять криві)? Вже існує спільнота вікі про безкоштовні набори даних: Розміщення вільно доступних зразків даних Але тут було б непогано мати більш цілеспрямований список, який можна зручніше використовувати , також я пропоную …

35 machine-learning classification dataset large-data

3

Що таке залишкова стандартна помилка?

Під час запуску моделі множинної регресії в R один з виходів є залишковою стандартною помилкою 0,0589 на 95,161 градуса свободи. Я знаю, що 95 161 градус свободи задається різницею між кількістю спостережень у моїй вибірці та кількістю змінних у моїй моделі. Що таке залишкова стандартна помилка?

35 regression standard-error residuals

4

Загальна сума випадкових величин Gamma

Я читав, що сума випадкових змінних Gamma з тим же параметром масштабу є ще однією випадковою змінною Gamma. Я також бачив статтю Москопулоса, що описує метод підсумовування загального набору випадкових змінних Гамма. Я спробував застосувати метод Мосхопулоса, але ще не мав успіху. Як виглядає підсумовування загального набору випадкових величин Gamma? …

35 probability distributions gamma-distribution summations saddlepoint-approximation

4

Чому логістична регресія стає нестабільною, коли класи добре розділені?

Чому так, що логістична регресія стає нестабільною, коли класи добре розділені? Що означає добре відокремлені класи? Я дуже вдячний, якщо хтось може пояснити на прикладі.

34 r regression logistic separation

2

Модель змішаних ефектів із вкладкою

У мене є дані, зібрані з експерименту, організованого таким чином: Два майданчики, на кожному з 30 дерев. 15 обробляються, 15 - контролюються на кожній ділянці. З кожного дерева ми відбираємо три шматки стебла і три шматки коренів, так що 6 зразків рівня 1 на дерево, що представлено одним із двох …

34 r mixed-model model nested-data lme4-nlme

5

Що робити, якщо дані моєї лінійної регресії містять кілька сумісних лінійних зв’язків?

Скажімо, я вивчаю, як нарциси реагують на різні ґрунтові умови. Я зібрав дані про рН ґрунту проти зрілої висоти нарциса. Я очікую лінійних відносин, тому я берусь за лінійною регресією. Однак я не усвідомив, коли розпочав своє дослідження, що популяція насправді містить два різновиди нарцисів, кожен з яких реагує дуже …

34 regression linear-model dataset

3

Що означає оцінка інформаційного критерію Akaike (AIC) моделі?

Я бачив тут декілька запитань щодо того, що це означає в простому розумінні, але це занадто непросто для моєї мети. Я намагаюся математично зрозуміти, що означає оцінка AIC. Але в той же час я не хочу жорсткого доказу, який би змусив мене не бачити більш важливих моментів. Наприклад, якби це …

34 self-study model-selection aic entropy information-theory