Статистика та великі дані

14

Простий алгоритм виявлення загального часового ряду в Інтернеті

Я працюю з великою кількістю часових рядів. Ці часові ряди - це в основному мережеві вимірювання, що відбуваються кожні 10 хвилин, а деякі з них періодичні (тобто пропускна здатність), а інші - не (тобто кількість трафіку маршрутизації). Мені хотілося б простого алгоритму для того, щоб зробити онлайн-виявлення «зовнішніх». В основному, …

88 time-series outliers mathematical-statistics real-time

30

Чи є спосіб запам'ятати визначення помилок типу I та типу II?

Я не статистик за освітою, я інженер програмного забезпечення. Однак статистика приходить багато. Насправді питань, які стосуються помилок типу І та II типу, виникає багато під час мого навчання на іспиті сертифікованого спеціаліста з розробки програмного забезпечення (математика та статистика - це 10% іспиту). У мене виникають проблеми завжди придумувати …

88 terminology type-i-and-ii-errors

2

Як нас лякає нас попередження про конвергенцію в lme4

Якщо ми підганяємо глімер, ми можемо отримати попередження, яке повідомляє нам, що модель знаходить важкий час для сходження ... наприклад >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) Ще один спосіб перевірити конвергенцію, обговорювану в цій темі …

88 r mixed-model lme4-nlme

3

Що таке дефіцит рангу, і як з цим боротися?

Встановлення логістичної регресії за допомогою lme4 закінчується с Error in mer_finalize(ans) : Downdated X'X is not positive definite. Ймовірна причина цієї помилки - очевидно, дефіцит рангу. Що таке дефіцит за рангом, і як його вирішити?

87 r logistic lme4-nlme

5

Які основні відмінності між K-засобами та K-найближчими сусідами?

Я знаю, що k-засоби не контролюються і використовуються для кластеризації тощо, і k-NN контролюється. Але я хотів знати конкретні відмінності між ними?

86 machine-learning k-means k-nearest-neighbour

2

Враховуючи потужність комп’ютерів в наші дні, чи є коли-небудь причина зробити тест на квадрат чи, а не точний тест Фішера?

Зважаючи на те, що програмне забезпечення дозволяє зробити точний розрахунок Фішера настільки легко в даний час , чи є обставина, коли теоретично чи практично, тест з квадратом чи справді є кращим, ніж точний тест Фішера? Переваги точного тесту Фішера включають: масштабування до таблиць на випадок, більших за 2x2 (тобто будь-яку …

86 chi-squared contingency-tables fishers-exact

3

Які приклади, коли "наївний завантажувальний пристрій" не вдається?

Припустимо, у мене є набір вибіркових даних з невідомого або складного розподілу, і я хочу виконати деякий висновок на статистичній даних. Моя схильність по замовчуванням є просто генерувати купу зразків бутстраповскіх з заміною, і обчислити мою статистику на кожен зразок початкового завантаження , щоб створити оцінне розподіл для .TTTTTTTTT Які …

86 hypothesis-testing confidence-interval bootstrap

9

Який саме інтервал довіри?

Я приблизно і неофіційно знаю, що таке інтервал довіри. Однак я, здається, не можу обернути голову навколо однієї досить важливої деталі: Згідно Вікіпедії: Інтервал довіри не передбачає, що справжнє значення параметра має особливу ймовірність опинитися в довірчому інтервалі з урахуванням фактично отриманих даних. Я також бачив подібні моменти, зроблені в …

86 confidence-interval definition

9

Чи існує інтуїтивне пояснення, чому мультиколінеарність - це проблема лінійної регресії?

У вікі обговорюються проблеми, які виникають, коли мультиколінеарність є проблемою лінійної регресії. Основна проблема полягає в тому, що мультиколінеарність призводить до нестабільних оцінок параметрів, що ускладнює оцінку впливу незалежних змінних на залежні змінні. Я розумію технічні причини, що стоять перед проблемами (можливо, не вдасться перевернути , неправильно обумовлені тощо), але …

85 regression intuition multicollinearity

17

Включаючи взаємодію, але не основні ефекти в моделі

Чи колись дійсно включати в модель двосторонню взаємодію без включення основних ефектів? Що робити, якщо ваша гіпотеза стосується лише взаємодії, чи все-таки потрібно включати основні ефекти?

85 regression modeling interaction regression-coefficients

24

Основні правила для "сучасної" статистики

Мені подобається книга G van Belle « Статистичні правила великого пальця» , і меншою мірою поширені помилки в статистиці (і як їх уникнути) від Філіппа I Good та Джеймса У. Хардіна. Вони стосуються загальних підводних каменів під час інтерпретації результатів експериментальних та спостережних досліджень та надають практичні рекомендації щодо статистичних …

85 modeling eda rule-of-thumb

16

За яких умов кореляція передбачає причину?

Всі ми знаємо, що мантра "співвідношення не означає причинно-наслідкового зв'язку", яка міститься у всіх студентів першого курсу статистики. Є деякі хороші приклади тут , щоб проілюструвати цю ідею. Але іноді кореляція робить на увазі причинно - наслідковий зв'язок. Наступний приклад - із цієї сторінки Вікіпедії Наприклад, можна провести експеримент на …

85 correlation causality

4

Як вибрати бібліотеку nlme або lme4 R для моделей зі змішаними ефектами?

У мене підходять кілька змішаних моделей ефектів ( в Зокрема , поздовжні моделі) з використанням lme4в Rале хотів би, щоб дійсно майстер моделі і код , який йде з ними. Однак перед тим, як зануритися обома ногами (і придбати деякі книги), я хочу бути впевнений, що я навчаюсь потрібній бібліотеці. …

85 r mixed-model lme4-nlme

8

Якщо середнє значення є настільки чутливим, навіщо його використовувати в першу чергу?

Відомий факт, що медіана є стійкою до сторонніх людей. Якщо це так, коли і навіщо ми б в першу чергу вживали середину? Можливо, я можу подумати, щоб зрозуміти присутність людей, що випадають, тобто якщо медіана далеко не середня, тоді розподіл перекошений і, можливо, дані потрібно вивчити, щоб вирішити, що робити …

84 mathematical-statistics mean median

1

Як застосувати Нейронну мережу до прогнозування часових рядів?

Я новачок у машинному навчанні, і я намагався зрозуміти, як застосувати нейронну мережу до прогнозування часових рядів. Я знайшов ресурс, пов’язаний із моїм запитом, але я, здається, ще трохи загублений. Я думаю, що базове пояснення без зайвих деталей допоможе. Скажімо, у мене є кілька цін на кожен місяць протягом кількох …

83 time-series forecasting neural-networks