Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

14
Простий алгоритм виявлення загального часового ряду в Інтернеті
Я працюю з великою кількістю часових рядів. Ці часові ряди - це в основному мережеві вимірювання, що відбуваються кожні 10 хвилин, а деякі з них періодичні (тобто пропускна здатність), а інші - не (тобто кількість трафіку маршрутизації). Мені хотілося б простого алгоритму для того, щоб зробити онлайн-виявлення «зовнішніх». В основному, …

30
Чи є спосіб запам'ятати визначення помилок типу I та типу II?
Я не статистик за освітою, я інженер програмного забезпечення. Однак статистика приходить багато. Насправді питань, які стосуються помилок типу І та II типу, виникає багато під час мого навчання на іспиті сертифікованого спеціаліста з розробки програмного забезпечення (математика та статистика - це 10% іспиту). У мене виникають проблеми завжди придумувати …

2
Як нас лякає нас попередження про конвергенцію в lme4
Якщо ми підганяємо глімер, ми можемо отримати попередження, яке повідомляє нам, що модель знаходить важкий час для сходження ... наприклад >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) Ще один спосіб перевірити конвергенцію, обговорювану в цій темі …

3
Що таке дефіцит рангу, і як з цим боротися?
Встановлення логістичної регресії за допомогою lme4 закінчується с Error in mer_finalize(ans) : Downdated X'X is not positive definite. Ймовірна причина цієї помилки - очевидно, дефіцит рангу. Що таке дефіцит за рангом, і як його вирішити?
87 r  logistic  lme4-nlme 


2
Враховуючи потужність комп’ютерів в наші дні, чи є коли-небудь причина зробити тест на квадрат чи, а не точний тест Фішера?
Зважаючи на те, що програмне забезпечення дозволяє зробити точний розрахунок Фішера настільки легко в даний час , чи є обставина, коли теоретично чи практично, тест з квадратом чи справді є кращим, ніж точний тест Фішера? Переваги точного тесту Фішера включають: масштабування до таблиць на випадок, більших за 2x2 (тобто будь-яку …

3
Які приклади, коли "наївний завантажувальний пристрій" не вдається?
Припустимо, у мене є набір вибіркових даних з невідомого або складного розподілу, і я хочу виконати деякий висновок на статистичній даних. Моя схильність по замовчуванням є просто генерувати купу зразків бутстраповскіх з заміною, і обчислити мою статистику на кожен зразок початкового завантаження , щоб створити оцінне розподіл для .TTTTTTTTT Які …

9
Який саме інтервал довіри?
Я приблизно і неофіційно знаю, що таке інтервал довіри. Однак я, здається, не можу обернути голову навколо однієї досить важливої ​​деталі: Згідно Вікіпедії: Інтервал довіри не передбачає, що справжнє значення параметра має особливу ймовірність опинитися в довірчому інтервалі з урахуванням фактично отриманих даних. Я також бачив подібні моменти, зроблені в …

9
Чи існує інтуїтивне пояснення, чому мультиколінеарність - це проблема лінійної регресії?
У вікі обговорюються проблеми, які виникають, коли мультиколінеарність є проблемою лінійної регресії. Основна проблема полягає в тому, що мультиколінеарність призводить до нестабільних оцінок параметрів, що ускладнює оцінку впливу незалежних змінних на залежні змінні. Я розумію технічні причини, що стоять перед проблемами (можливо, не вдасться перевернути , неправильно обумовлені тощо), але …

17
Включаючи взаємодію, але не основні ефекти в моделі
Чи колись дійсно включати в модель двосторонню взаємодію без включення основних ефектів? Що робити, якщо ваша гіпотеза стосується лише взаємодії, чи все-таки потрібно включати основні ефекти?

24
Основні правила для "сучасної" статистики
Мені подобається книга G van Belle « Статистичні правила великого пальця» , і меншою мірою поширені помилки в статистиці (і як їх уникнути) від Філіппа I Good та Джеймса У. Хардіна. Вони стосуються загальних підводних каменів під час інтерпретації результатів експериментальних та спостережних досліджень та надають практичні рекомендації щодо статистичних …

16
За яких умов кореляція передбачає причину?
Всі ми знаємо, що мантра "співвідношення не означає причинно-наслідкового зв'язку", яка міститься у всіх студентів першого курсу статистики. Є деякі хороші приклади тут , щоб проілюструвати цю ідею. Але іноді кореляція робить на увазі причинно - наслідковий зв'язок. Наступний приклад - із цієї сторінки Вікіпедії Наприклад, можна провести експеримент на …

4
Як вибрати бібліотеку nlme або lme4 R для моделей зі змішаними ефектами?
У мене підходять кілька змішаних моделей ефектів ( в Зокрема , поздовжні моделі) з використанням lme4в Rале хотів би, щоб дійсно майстер моделі і код , який йде з ними. Однак перед тим, як зануритися обома ногами (і придбати деякі книги), я хочу бути впевнений, що я навчаюсь потрібній бібліотеці. …

8
Якщо середнє значення є настільки чутливим, навіщо його використовувати в першу чергу?
Відомий факт, що медіана є стійкою до сторонніх людей. Якщо це так, коли і навіщо ми б в першу чергу вживали середину? Можливо, я можу подумати, щоб зрозуміти присутність людей, що випадають, тобто якщо медіана далеко не середня, тоді розподіл перекошений і, можливо, дані потрібно вивчити, щоб вирішити, що робити …

1
Як застосувати Нейронну мережу до прогнозування часових рядів?
Я новачок у машинному навчанні, і я намагався зрозуміти, як застосувати нейронну мережу до прогнозування часових рядів. Я знайшов ресурс, пов’язаний із моїм запитом, але я, здається, ще трохи загублений. Я думаю, що базове пояснення без зайвих деталей допоможе. Скажімо, у мене є кілька цін на кожен місяць протягом кількох …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.