Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Докази техногенного глобального потепління вражають «золотим стандартом»: як вони це зробили?
Це повідомлення у статті Reuter від 25.02.2019 наразі в усіх новинах: Докази для техногенного глобального потепління вражає "золотим стандартом" [Вчені] заявили, що впевненість у тому, що людська діяльність піднімає тепло на поверхні Землі, досягла рівня "п’ять сигм", статистичний датчик означає, що існує лише шанс на мільйон, що сигнал з’явиться, якби …

11
Середнє абсолютне відхилення проти стандартного відхилення
У підручнику «Нова всеосяжна математика для рівня O» Грера (1983) я бачу усереднене відхилення, обчислене так: Підсумуйте абсолютні різниці між одиничними значеннями та середніми. Тоді отримайте його середнє значення. У розділі використовується термін середнє відхилення . Але я нещодавно бачив кілька посилань, які використовують термін стандартне відхилення, і це те, …

8
Випадкова хода по краях куба
Мурашка поміщена в кут куба і не може рухатися. Павук починається з протилежного кута і може рухатися по краях куба в будь-якому напрямку з однаковою ймовірністю . У середньому, скільки кроків знадобиться павукові, щоб дістатися до мурашки?(x,y,z)(x,y,z)(x,y,z)1/31/31/3 (Це не домашнє завдання, це питання інтерв'ю.)

1
Виявлення випускників у часових рядах (LS / AO / TC) за допомогою пакету tsoutliers в Р. Як представити форматів у форматі рівнянь?
Коментарі: По-перше, я хотів би сказати велике спасибі авторові нового пакету tsoutliers, який реалізує виявлення зовнішнього часу Чен та Лю, який був опублікований в Журналі Американської статистичної асоціації в 1993 році в програмному забезпеченні Open Source .RRR Пакет ітераційно виявляє 5 різних типів випускників у даних часових рядів: Адитивна добавка …

1
Логістична регресія: тест anova chi-kvadrat порівняно зі значенням коефіцієнтів (anova () vs summary () у R)
У мене є логістична модель GLM з 8 змінними. Я провів тест-ква-квадрат у R anova(glm.model,test='Chisq')та 2 змінних виявились прогнозними, коли упорядковано у верхній частині тесту, і не так сильно, коли замовлено внизу. Напрошується summary(glm.model)думка, що їх коефіцієнти незначні (високе р-значення). У цьому випадку здається, що змінні не є істотними. Мені …

3
Як довести, що радіальною базовою функцією є ядро?
Як довести, що функція радіальної основи є ядром? Наскільки я розумію, щоб довести це, ми повинні довести одне з наступного:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Для будь-якого набору векторів матриця = - це додатне напіввизначене.x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} Можна подати відображення наприклад = .ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle …
35 svm  kernel-trick 

3
Суперечність суттєвості в лінійній регресії: суттєвий t-тест на коефіцієнт проти несуттєвої загальної F-статистики
Мені підходить декілька лінійних регресійних моделей між 4 категоричними змінними (з 4 рівнями кожна) та числовим результатом. У моєму наборі даних є 43 спостереження. Регресія дає мені такі ppp -значення від -тесту для кожного коефіцієнта нахилу: . Таким чином, коефіцієнт для 4-го предиктора є значущим на рівні довіри .ттt.15 , …


5
Безкоштовний набір даних для дуже високої розмірної класифікації [закрито]
Що таке вільно доступний набір даних для класифікації з більш ніж 1000 ознаками (або зразкові точки, якщо вони містять криві)? Вже існує спільнота вікі про безкоштовні набори даних: Розміщення вільно доступних зразків даних Але тут було б непогано мати більш цілеспрямований список, який можна зручніше використовувати , також я пропоную …

3
Що таке залишкова стандартна помилка?
Під час запуску моделі множинної регресії в R один з виходів є залишковою стандартною помилкою 0,0589 на 95,161 градуса свободи. Я знаю, що 95 161 градус свободи задається різницею між кількістю спостережень у моїй вибірці та кількістю змінних у моїй моделі. Що таке залишкова стандартна помилка?

4
Загальна сума випадкових величин Gamma
Я читав, що сума випадкових змінних Gamma з тим же параметром масштабу є ще однією випадковою змінною Gamma. Я також бачив статтю Москопулоса, що описує метод підсумовування загального набору випадкових змінних Гамма. Я спробував застосувати метод Мосхопулоса, але ще не мав успіху. Як виглядає підсумовування загального набору випадкових величин Gamma? …


2
Модель змішаних ефектів із вкладкою
У мене є дані, зібрані з експерименту, організованого таким чином: Два майданчики, на кожному з 30 дерев. 15 обробляються, 15 - контролюються на кожній ділянці. З кожного дерева ми відбираємо три шматки стебла і три шматки коренів, так що 6 зразків рівня 1 на дерево, що представлено одним із двох …

5
Що робити, якщо дані моєї лінійної регресії містять кілька сумісних лінійних зв’язків?
Скажімо, я вивчаю, як нарциси реагують на різні ґрунтові умови. Я зібрав дані про рН ґрунту проти зрілої висоти нарциса. Я очікую лінійних відносин, тому я берусь за лінійною регресією. Однак я не усвідомив, коли розпочав своє дослідження, що популяція насправді містить два різновиди нарцисів, кожен з яких реагує дуже …

3
Що означає оцінка інформаційного критерію Akaike (AIC) моделі?
Я бачив тут декілька запитань щодо того, що це означає в простому розумінні, але це занадто непросто для моєї мети. Я намагаюся математично зрозуміти, що означає оцінка AIC. Але в той же час я не хочу жорсткого доказу, який би змусив мене не бачити більш важливих моментів. Наприклад, якби це …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.