Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Коли використовувати рамку Фішера та Неймана-Пірсона?
Останнім часом я багато читав про відмінності між методом тестування гіпотез Фішера та школою думки Неймана-Пірсона. Моє запитання - ігнорування філософських заперечень на мить; коли ми повинні використовувати підхід Фішера до статистичного моделювання та коли слід використовувати метод Неймана-Пірсона за рівнем значущості тощо? Чи є практичний спосіб вирішити, яку точку …

4
Що таке "неінформативний поперед"? Чи можемо ми колись мати таку, яка справді не має інформації?
Натхненний коментарем до цього питання : Що ми вважаємо "неінформативним" у попередньому - а яка інформація все ще міститься в передбачуваному неінформативному попередньому? Я, як правило, бачу попередній аналіз, коли це або частофілістський аналіз, який намагається запозичити деякі приємні деталі з байєсівського аналізу (будь-яка легша інтерпретація аж до "його гарячої …
73 bayesian  prior 

8
Як обчислити точність / відкликання для класифікації багаторівневих класів?
Мені цікаво, як обчислити точність і відкликати заходи для багаторівневої класифікації багаторівневих, тобто класифікації, де існує більше двох міток і де кожен екземпляр може мати кілька міток?

7
Правила великого пальця для мінімального розміру вибірки для багаторазової регресії
У контексті дослідницької пропозиції із соціальних наук мені поставили таке питання: Я завжди йшов на 100 + м (де m - кількість предикторів) при визначенні мінімального розміру вибірки для множинної регресії. Чи підходить це? У мене дуже часто виникають подібні запитання, часто з різними правилами. Я також дуже багато читав …

14
Коли (якщо взагалі колись) парафіністський підхід істотно кращий, ніж байєсівський?
Передумови : Я не маю офіційної підготовки з байєсівської статистики (хоча мені дуже цікаво дізнатися більше), але я знаю достатньо - я думаю - щоб зрозуміти, чому багато хто відчуває, що вони вважають за краще статистика часто. Навіть магістранти у вступному класі статистики (соціальних наук), який я навчаю, вважають байєсівський …

7
Евклідова відстань, як правило, не корисна для розріджених даних?
Десь я бачив, що класичні відстані (наприклад, евклідова відстань) стають слабко дискримінантними, коли ми маємо багатовимірні та розріджені дані. Чому? Чи є у вас приклад двох розріджених векторів даних, де евклідова відстань не працює добре? У цьому випадку яку подібність ми повинні використати?

4
Зв'язок між пуассоном та експоненціальним розподілом
Час очікування розподілу Пуассона - це експоненціальне розподіл з параметром лямбда. Але я цього не розумію. Пуассон, наприклад, моделює кількість прибутків за одиницю часу. Як це пов’язано з експоненціальним розподілом? Скажімо, ймовірність приходу k за одиницю часу дорівнює P (k) (моделюється пуассоном), а ймовірність k + 1 - P (k …

10
Який повний перелік звичайних припущень для лінійної регресії?
Які звичайні припущення для лінійної регресії? Чи включають вони: лінійна залежність між незалежною та залежною змінною незалежні помилки нормальний розподіл помилок гомоскедастичність Чи є інші?

13
Яка роль логарифму в ентропії Шеннона?
Ентропія Шеннона - це від’ємник суми ймовірностей кожного результату, помноженого на логарифм ймовірностей для кожного результату. Якій меті служить логарифм у цьому рівнянні? Інтуїтивно зрозуміла або візуальна відповідь (на відміну від глибоко математичної відповіді) отримає бонусні бали!

2
Чому регресію хребта називають "хребет", чому він потрібен і що відбувається, коли переходить до нескінченності?
Оцінка коефіцієнта регресії хребта - значення, що мінімізують значенняβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Мої запитання: Якщо , ми бачимо, що вираз вище зводиться до звичайного RSS. Що робити, якщо ? Я не розумію в підручнику пояснення поведінки коефіцієнтів.λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty Для того, щоб допомогти зрозуміти поняття, що …

8
Навички важко знайти у машинних учнів?
Схоже, видобуток даних та машинне навчання стали настільки популярними, що зараз майже кожен студент CS знає про класифікатори, кластеризацію, статистичну НЛП ... і т. Д. Тож здається, що пошук шахтарів даних не є важкою справою в наш час. Моє запитання: Які навички, завдяки яким мінодер даних міг засвоїти, зробили б …

2
Вирішення параметрів регресії у закритому вигляді та градієнті спуску
У курсі машинного навчання Ендрю Нґ він вводить лінійну регресію та логістичну регресію та показує, як підігнати параметри моделі за допомогою градієнтного спуску та методу Ньютона. Я знаю, що градієнтний спуск може бути корисним для деяких застосувань машинного навчання (наприклад, зворотної пропорції), але в більш загальному випадку є якась причина, …


15
Повні змістовні приклади відтворюваних досліджень з використанням R
Питання: Чи є якісь хороші приклади відтворюваних досліджень з використанням R, які є у вільному доступі в Інтернеті? Ідеальний приклад: конкретно, ідеальні приклади забезпечують: Необроблені дані (і в ідеалі метадані, що пояснюють ці дані), Весь код R, включаючи імпорт, обробку даних, аналіз та генерування результатів, Зміна або інший підхід для …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.