Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

16
Чи є тестування на нормальність "по суті марним"?
Колишній колега якось сперечався зі мною так: Зазвичай ми застосовуємо тести на нормальність до результатів процесів, які під нулем генерують випадкові величини, які є лише асимптотичними або майже нормальними (при цьому "асимптотично" частина залежить від деякої кількості, яку ми не можемо зробити великою); В епоху дешевої пам’яті, великих даних та …

7
Коли ви проводите множинні регресії, коли слід зосереджувати свої прогнозні показники, а коли їх стандартизувати?
У деякій літературі я читав, що регресія з декількома пояснювальними змінними, якщо вони є в різних одиницях, потрібно стандартизувати. (Стандартизація полягає у відніманні середнього значення та діленні на стандартне відхилення.) У яких інших випадках мені потрібно стандартизувати свої дані? Чи є випадки, коли я повинен зосереджувати лише свої дані (тобто, …

9
Яка різниця між моделями з фіксованим ефектом, випадковим ефектом та змішаним ефектом?
Простіше кажучи, як би ви пояснили (можливо, простими прикладами) різницю між моделями фіксованого ефекту, випадкового ефекту та змішаного ефекту?

6
Як нормалізувати дані до діапазону 0-1?
Я загубився в нормалізації, чи не міг би хтось мене навести. У мене мінімальні та максимальні значення, скажімо, -23,89 та 7,54990767 відповідно. Якщо я отримаю значення 5.6878, як я можу масштабувати це значення за шкалою від 0 до 1.

11
Як зрозуміти ступеня свободи?
З Вікіпедії є три тлумачення ступенів свободи статистики: У статистиці число ступенів свободи - це кількість значень у підсумковому обчисленні статистики, які можуть змінюватися . Оцінки статистичних параметрів можуть базуватися на різних обсягах інформації або даних. Кількість незалежних фрагментів інформації, що надходять в оцінку параметра, називається ступенем свободи (df). Загалом, …


16
Яке значення p значень та t значень у статистичних тестах?
Пройшовши курс статистики, а потім спробувавши допомогти студентам, я помітив один предмет, який надихає багато стук в головному кабінеті - інтерпретацію результатів тестів статистичної гіпотези. Схоже, студенти легко навчаються виконувати обчислення, необхідні даним тестом, але зациклюються на інтерпретації результатів. Багато комп’ютеризованих інструментів повідомляють про результати випробувань у термінах "p значення" …



8
Чому евклідова відстань не є хорошою метрикою у великих розмірах?
Я читав, що «Евклідова відстань - це не дуже добра відстань у великих розмірах». Я думаю, це твердження має щось спільне з прокляттям розмірності, але що саме? Крім того, що таке "високі розміри"? Я застосовував ієрархічну кластеризацію за допомогою евклідової відстані зі 100 ознаками. На скільки функцій безпечно використовувати цей …

2
Інтерпретація виходу lm () R '
Сторінки довідки в R припускають, що я знаю, що означають ці цифри, але я не знаю. Я намагаюся по-справжньому інтуїтивно зрозуміти кожне число тут. Я просто опублікую висновок і прокоментую те, що я дізнався. Можуть бути (будуть) помилки, оскільки я просто напишу те, що припускаю. В основному я хотів би …

6
Є корисно чи небезпечно?
Я скумував через деякі конспекти лекцій Косма Шалізі (зокрема, розділ 2.1.1 другої лекції ), і мені нагадали, що ви можете отримати дуже низький навіть якщо у вас є повністю лінійна модель.R2R2R^2 Перефразовуючи приклад Шалізі: припустимо, у вас є модель , де відома. Тоді \ newcommand {\ Var} {\ mathrm {Var}} …

9
Яка різниця між довірчим інтервалом та достовірним інтервалом?
Обмін Йоріса та Сріканта тут змусив мене замислитися (знову), чи мої внутрішні пояснення різниці між довірчими інтервалами та достовірними інтервалами були правильними. Як би ви пояснили різницю?


12
Чому інтервал довіри 95% (CI) не передбачає 95% шансу містити середнє значення?
Здається, що через різні пов'язані з цим питання тут існує консенсус, що "95%" частина того, що ми називаємо "95% довірчим інтервалом", посилається на те, що якби ми багато разів точно повторювали наші процедури вибірки та обчислення CI 95% таким чином обчислених КІ містили б середнє значення для населення. Крім того …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.