Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

8
Які мінуси байєсівського аналізу?
Які практичні заперечення щодо використання байєсівських статистичних методів у будь-якому контексті? Ні, я не маю на увазі звичайний догляд за вибором попереднього. Я буду радий, якщо на це не надійде відповідей.
44 bayesian 

6
Як виконати тест за допомогою R, щоб побачити, чи слід за даними нормального розподілу
У мене є набір даних із такою структурою: a word | number of occurrence of a word in a document | a document id Як я можу виконати тест на нормальний розподіл у R? Можливо, це легке запитання, але я R новачок.

8
Суворе визначення чужого?
Люди часто говорять про те, що мають справу зі старшими в статистиці. Що мене турбує з цього приводу, це те, що, наскільки я можу сказати, визначення спокійного обличчя є абсолютно суб'єктивним. Наприклад, якщо справжній розподіл якоїсь випадкової змінної є дуже важким або бімодальним, будь-яка стандартна візуалізація або зведена статистика для …

4
Статистичні моделі шпаргалки
Мені було цікаво, чи існує статистична модель "шпаргалки", яка містить будь-яку або більше інформації: коли використовувати модель коли не використовувати модель необхідні та необов'язкові входи очікувані результати чи була протестована модель у різних сферах (політика, біо, інженерія, виробництво тощо)? це прийнято на практиці чи дослідженнях? очікувана варіація / точність / …

5
Чому багаторазове порівняння є проблемою?
Мені важко зрозуміти, що насправді є проблемою із численними порівняннями . З простою аналогією кажуть, що людина, яка прийме багато рішень, зробить багато помилок. Так застосовуються дуже консервативні заходи обережності, як корекція Бонферроні, щоб зробити ймовірність того, що ця людина зробить будь-яку помилку, якнайменше, наскільки це можливо. Але чому нас …

6
Чому мультиколінеарність не перевіряється в сучасній статистиці / машинному навчанні
У традиційній статистиці, будуючи модель, ми перевіряємо наявність мультиколінеарності за допомогою таких методів, як оцінки коефіцієнта дисперсії дисперсії (VIF), але в машинному навчанні ми замість цього використовуємо регуляризацію для вибору особливостей і, здається, не перевіряємо, чи співвідносяться функції зовсім. Чому ми це робимо?

4
Чи є тест, щоб визначити, чи є значною мірою перевиконання GLM?
Я створюю Poisson GLMs у Р. Щоб перевірити наявність наддисперсії, я розглядаю співвідношення залишкового відхилення до ступеня свободи, що надається summary(model.name). Чи є значення граничної межі або тест, щоб цей коефіцієнт вважався "значущим"? Я знаю, що якщо це> 1, то дані перерозподіляються, але якщо у мене відношення відносно близькі до …


6
Як уникнути перекриття міток у R-графіці? [зачинено]
Я намагаюся позначити досить простий розсіювач у Р. Це я використовую: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Результат посередній, як ви бачите (натисніть, щоб збільшити): Я намагався компенсувати це за допомогою textxyфункції, але це не краще . Збільшення зображення не працює для щільних кластерів. Чи є якась функція чи …

4
Яка функція активації для вихідного шару?
Хоча вибір функцій активації для прихованого шару досить чіткий (переважно сигмоподібний або тан), мені цікаво, як визначитися з функцією активації вихідного шару. Найпоширенішими варіантами є лінійні функції, сигмоїдні функції та функції softmax. Однак коли я повинен використовувати який?

3
Тестування рівності коефіцієнтів від двох різних регресій
Це здається основним питанням, але я просто зрозумів, що насправді не знаю, як перевірити рівність коефіцієнтів від двох різних регресій. Чи може хтось пролити на це світло? Більш формально, припустимо, я застосував наступні дві регресії: і де посилається на проектну матрицю регресії , а на вектор коефіцієнтів регресії . Зауважте, …

5
Чи важливо масштабувати дані перед кластеризацією?
Я знайшов цей підручник , який говорить про те, що вам слід запустити функцію масштабування на функції перед кластеризацією (я вважаю, що вона перетворює дані в z-бали). Мені цікаво, чи потрібно це? Я запитую в основному тому, що є приємний момент ліктя, коли я не масштабую дані, але він зникає, …

4
Стандартна помилка для середнього зразка біноміальних випадкових величин
Припустимо, я провожу експеримент, який може мати 2 результати, і я припускаю, що основним "справжнім" розподілом двох результатів є біноміальний розподіл з параметрами нnn і ppp : B i n o m i a l (n,p)Binomial(n,p){\rm Binomial}(n, p) . Я можу обчислити стандартну помилку, SЕХ= σХн√SEX=σXnSE_X = \frac{\sigma_X}{\sqrt{n}} , від …


4
Чому так зміни природного журналу - це відсоткові зміни? Що з журналів, що робить це таким?
Чи може хтось пояснити, яким чином властивості журналів роблять це, щоб ви могли робити лінійні регресії журналу, де коефіцієнти інтерпретуються як відсоткові зміни?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.