Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Точний тест Фішера в таблицях на випадок, більший за 2х2
Мене вчили застосовувати точний тест Фішера лише у таблицях на випадок надзвичайних ситуацій, які були 2х2. Запитання: Чи вважав сам Фішер коли-небудь цей тест використовувати в таблицях розміром більше 2х2 (мені відомо, що казка про нього розробляє тест, намагаючись вгадати, чи могла бабуся сказати, чи в чай ​​додають молоко чи …

6
Як я можу перевірити справність d20?
Як я можу перевірити справедливість двадцятигранного штампа (d20)? Очевидно, я б порівнював розподіл значень проти рівномірного розподілу. Я смутно пам’ятаю використання тесту Chi-квадрата в коледжі. Як я можу застосувати це, щоб зрозуміти, чи є штамп справедливим?

5
Як обчислити зважене стандартне відхилення? В Excel?
Отже, у мене є такий набір даних про відсотки: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) Я хочу знайти стандартне відхилення відсотків, але зважене на обсяг їх даних. тобто перша і остання точки …

6
Змінна процедура вибору для двійкової класифікації
Який вибір змінної / ознак, який ви віддаєте перевагу для двійкової класифікації, коли в навчальному наборі є набагато більше змінних / ознак, ніж спостереження? Метою тут є обговорення того, яка процедура вибору ознак дозволяє зменшити найкращу помилку класифікації. Ми можемо виправити позначення на послідовність: для , нехай є навчальним набором …

11
Статистичні подкасти
Які деякі подкасти пов'язані зі статистичним аналізом? Я знайшов кілька аудіозаписів лекцій коледжу на ITunes U, але не знаю жодних статистичних подкастів. Найближче, що мені відомо, - це підкаст з дослідження операцій «Наука про краще» . Це стосується статистичних питань, але це не конкретно статистичне шоу.
29 references 

3
Як виконати ортогональну регресію (всього найменших квадратів) за допомогою PCA?
Я завжди використовую lm()в R для виконання лінійної регресії на . Ця функція повертає коефіцієнт такий, щоуyyхxxββ\betaу= βх .y=βx.y = \beta x. Сьогодні я дізнався про загальні найменші квадрати і цю princomp()функцію (аналіз основних компонентів, PCA) можна використовувати для її виконання. Це має бути добре для мене (точніше). Я зробив …

6
Тест на кінцеву дисперсію?
Чи можна перевірити на скінченність (або існування) дисперсії випадкової величини, що дається вибіркою? Як нуль, або {варіація існує і є кінцевою}, або {дисперсія не існує / є нескінченною} було б прийнятним. Філософсько (і обчислювально) це здається дуже дивним, оскільки не повинно бути різниці між сукупністю без кінцевої дисперсії та кількістю …

3
Що таке колектор?
У техніці зменшення розмірності, такі як аналіз основних компонентів, LDA тощо, часто використовується термін колектор. Що таке багатоманіття в нетехнічному терміні? Якщо точка належить до сфери, розмірність якої я хочу , щоб зменшити, а якщо є шум у і х і у є корельованими, то фактичні точки х будуть далеко …

1
Інтервал прогнозу завантаження
Чи існує яка-небудь методика завантаження для обчислення інтервалів прогнозування для прогнозування точок, отриманих, наприклад, від лінійної регресії або іншого методу регресії (k-найближчий сусід, регресійні дерева тощо)? Я якось відчуваю, що іноді пропонований спосіб просто скористатися точковим прогнозуванням (див., Наприклад, інтервали прогнозування для регресії kNN ) не забезпечує інтервал прогнозування, а …

1
Які недоліки середньої абсолютної процентної помилки (MAPE)?
Відсоток помилки Середнього Absolute ( Мапе ) є спільною точністю або міра помилки для часових рядів або інших передбачень, MAPE=100n∑t=1n|At−Ft|At%,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, де - фактичні факти, а F t - відповідні прогнози чи прогнози.AtAtA_tFtFtF_t MAPE - це відсоток, тому ми можемо легко порівняти його між серіями, а люди можуть …
29 accuracy  mape 

2
Навіщо використовувати стратифіковану перехресну перевірку? Чому це не шкодить вигоди, пов'язаному з дисперсією?
Мені сказали, що корисно використовувати стратифіковану перехресну перевірку, особливо коли класи відповідей є неврівноваженими. Якщо одна мета перехресної перевірки - допомогти врахувати випадковість нашого вихідного зразка навчальних даних, то, безумовно, зробити так, щоб кожен складник мав однаковий розподіл класів, буде проти цього, якщо ви не впевнені, що ваш оригінальний навчальний …

4
Інтерпретація Псевдо-R2 Макфаддена
У мене є бінарна логістична регресійна модель з псевдо-R-квадратом Макфаддена 0,192 з залежною змінною, що називається платежем (1 = платіж і 0 = відсутність платежу). Яка інтерпретація цього псевдо R-квадрата? Чи відносне порівняння для вкладених моделей (наприклад, 6-змінна модель має псевдо-R-квадрат Макфаддена 0,192, тоді як 5-змінна модель (після вилучення однієї …

1
Показники помилок для перехресних перевірок моделей Пуассона
Я схрещую валідацію моделі, яка намагається передбачити кількість. Якби це була проблема бінарної класифікації, я б обчислював AUC, що перевершується, і якщо це проблема з регресією, я б обчислював RMSE або MAE, що не перевищується. Для моделі Пуассона, які показники помилок можна використовувати для оцінки "точності" позапробних прогнозів? Чи є …


3
Поліноміальна регресія за допомогою scikit-learn
Я намагаюся використовувати scikit-learn для поліноміальної регресії. З того, що я читаю, поліноміальна регресія є особливим випадком лінійної регресії. Я сподівався, що, можливо, одна із узагальнених лінійних моделей scikit може бути параметризована для розміщення поліномів вищого порядку, але я не бачу варіанту для цього. Мені вдалося скористатись регрессором векторної підтримки …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.