Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
Як дізнатися, чи є часовий ряд стаціонарним чи нестаціонарним?
Я використовую R, я шукав на Google і з'ясував , що kpss.test(), PP.test()і adf.test()використовуються , щоб знати про стаціонарності часових рядів. Але я не статистик, який може інтерпретувати їх результати > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > …

3
Який хороший спосіб використовувати R, щоб зробити розсіювач, який розділяє дані обробкою?
Я взагалі новачок із R та статистикою взагалі, але мені потрібно зробити розсип, який, на мою думку, може перевищити його власні можливості. У мене є пара векторів спостережень, і я хочу зробити з ними розсип, і кожна пара потрапляє в одну з трьох категорій. Я хотів би зробити розсип, який …

8
Які теорії повинен знати кожен статистик?
Я думаю про це з точки зору дуже основних, мінімальних вимог. Які основні теорії, які галузевий (а не академічний) статистик повинен знати, розуміти та використовувати на регулярній основі? Великий, який спадає на думку, - Закон великої кількості . Які найбільш важливі для застосування статистичної теорії до аналізу даних?

4
Оптимізація кривих точності пригадування при дисбалансі класу
У мене є завдання класифікації, де у мене є ряд предикторів (один з яких є найбільш інформативним), і я використовую модель MARS для побудови свого класифікатора (мене цікавить будь-яка проста модель, і використання glms для ілюстративних цілей було б теж добре). Зараз у мене є величезний класовий дисбаланс у навчальних …

3
Як жорстко визначити ймовірність?
Ймовірність може бути визначена кількома способами, наприклад: функція від яка відображає на тобто .L ( θ , x ) L ( θ ∣ x ) L : Θ × X → RLLΘ × XΘ×X\Theta\times{\cal X}(θ,x)(\theta,x)L(θ∣x)L(\theta \mid x)L:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} випадкова функціяL ( ⋅ ∣ X )L(⋅∣X)L(\cdot \mid X) ми …

3
Наскільки R масштабує завдання для класифікації тексту? [зачинено]
Я намагаюся досягти швидкості з R. Я врешті-решт хочу використовувати R-бібліотеки для класифікації тексту. Мені було просто цікаво, який досвід людей щодо масштабованості R, коли мова йде про класифікацію тексту. Я, швидше за все, зіткнувся з великими розмірними даними (~ 300k розмірів). Я дивлюся на використання SVM та Random Forest, …

3
Візуалізація перетинів багатьох множин
Чи існує модель візуалізації, яка б добре відображала перетин перетину багатьох наборів? Я думаю про щось на зразок діаграм Венна, але це якось може піддавати себе більшої кількості наборів, таких як 10 і більше. У Вікіпедії є кілька вищих діаграм Венна, але навіть 4-х діаграми є дуже важливими. Думаю, що …

4
Перевірка наявності двох зразків Пуассона однаковою середньою
Це елементарне запитання, але я не змогла знайти відповідь. У мене є два вимірювання: n1 події в часі t1 і n2 події в часі t2, обидва вироблені (скажімо) процесами Пуассона з можливо різними значеннями лямбда. Це насправді з новинної статті, яка по суті стверджує, що оскільки що вони різні, але …

6
Лінійний графік має занадто багато рядків, чи є краще рішення?
Я намагаюсь графікувати кількість дій користувачів (у даному випадку "лайків") протягом часу. Отже, у мене є "Кількість дій" як вісь y, моя вісь x - час (тижні), і кожен рядок представляє одного користувача. Моя проблема полягає в тому, що я хочу переглянути ці дані для набору з приблизно 100 користувачів. …

2
Інтерпретація біплотів в аналізі основних компонентів
Я натрапив на цей чудовий підручник: Посібник зі статистичних аналізів за допомогою Р. Глава 13. Аналіз основних компонентів: Олімпійський шестиборство про те, як робити PCA на мові R. Я не розумію тлумачення рисунка 13.3: Тому я будую перший власний вектор проти другого власного вектора. Що це означає? Припустимо, власне значення, …

6
Коли корисні інтервали довіри?
Якщо я правильно розумію, довірчий інтервал параметра - це інтервал, побудований методом, який дає інтервали, що містять справжнє значення для визначеної пропорції вибірки. Отже, «впевненість» - це скоріше про метод, а не про інтервал, який я обчислюю з певної вибірки. Як користувач статистики я завжди відчував себе обдуреним, оскільки простір …

2
Яка різниця між тестом Шапіро-Вілка на нормальність і тестом Колмогорова-Смірнова на нормальність?
Яка різниця між тестом Шапіро-Вілка на нормальність і тестом Колмогорова-Смірнова на нормальність? Коли результати цих двох методів будуть відрізнятися?

6
Оцінка інтервалу біноміального довіри - чому воно не симетричне?
Я використовував наступний код r для оцінки довірчих інтервалів біноміальної пропорції, тому що я розумію, що це замінює "розрахунок потужності" при проектуванні конструкцій характеристичної кривої приймача, що шукають виявлення захворювань у популяції. n - 150, а захворювання, ми вважаємо, на 25% поширене в популяції. Я підрахував значення для 75% чутливості …

1
Як центрування впливає на значення PCA (для розпаду SVD та власних властивостей)?
Яку різницю мають центрирування (або де-значення) ваших даних для PCA? Я чув, що це полегшує математику або що перешкоджає домінуванню на першому ПК засобами змінних, але я відчуваю, що ще не зміг зрозуміти цю концепцію. Наприклад, головна відповідь тут Як центрування даних позбавляється від перехоплення в регресії та PCA? описується, …
30 r  pca  svd  eigenvalues  centering 

3
Статистичний тест, який дозволяє визначити, чи витягують дві проби з однієї сукупності?
Скажімо, у мене є два зразки. Якщо я хочу сказати, чи вони витягнуті з різних груп населення, я можу провести t-тест. Але скажімо, я хочу перевірити, чи є зразки з однієї сукупності. Як це зробити? Тобто, як я обчислюю статистичну ймовірність того, що ці дві вибірки були взяті з однієї …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.