Статистика та великі дані

4

Функція Softmax vs Sigmoid в логістичному класифікаторі?

Що визначає вибір функції (Softmax vs Sigmoid) у логістичному класифікаторі? Припустимо, є 4 вихідні класи. Кожна з наведених вище функцій дає ймовірність правильного виходу кожного класу. То який із них взяти за класифікатор?

62 machine-learning logistic classification softmax

4

Як слід повідомляти про крихітні

Для деяких тестів в R, існує нижня межа на р-значення розрахунків 2,22 ⋅ 10- 162.22⋅10−162.22 \cdot 10^{-16} . Я не впевнений, чому саме це число, якщо для цього є вагомі причини або якщо це просто довільне. Багато інших пакетів статистики просто йде 0.0001, тому це набагато вищий рівень точності. Але …

62 r p-value reporting precision

4

Чи відповідає дисперсія суми сумі дисперсій?

Чи завжди (правда), що Var(∑i=1mXi)=∑i=1mVar(Xi)?Var(∑i=1mXi)=∑i=1mVar(Xi)?\mathrm{Var}\left(\sum\limits_{i=1}^m{X_i}\right) = \sum\limits_{i=1}^m{\mathrm{Var}(X_i)} \>?

62 variance

5

Чому корисний Джефріс?

Я розумію, що пріоритет Джефріса інваріантний при повторній параметризації. Однак я не розумію, чому саме ця властивість бажана. Чому б ви не хотіли, щоб попередні зміни були змінені змінними?

61 bayesian prior

2

Коефіцієнт ймовірності та коефіцієнт Байєса

Я досить євангелістичний щодо використання коефіцієнтів ймовірності для представлення об'єктивних доказів для / проти даного явища. Однак нещодавно я дізнався, що фактор Байєса виконує аналогічну функцію в контексті байєсівських методів (тобто суб'єктивний попередній поєднується з об'єктивним фактором Байєса для отримання об'єктивно оновленого суб'єктивного стану віри). Зараз я намагаюся зрозуміти обчислювальні …

61 likelihood-ratio bayes-factors

10

Що означає "Вчені проти статистичної значущості"? (Коментар у природі)

Назва коментаря в природі вчених проти статистичної значущості починається з: Валентин Амрейн, Сандер Ґренландія, Блейк Мак-Шейн та понад 800 підписантів закликають припинити скасування заяв та звільнення від можливих вирішальних наслідків. а пізніше містить такі твердження, як: Знову ж таки, ми не виступаємо за заборону значень P, довірчих інтервалів чи інших …

61 statistical-significance p-value bias

3

Хто створив першу стандартну звичайну таблицю?

Я збираюся представити стандартну звичайну таблицю у своєму вступному класі статистики, і це мене здивувало: хто створив першу стандартну звичайну таблицю? Як вони зробили це до появи комп'ютерів? Я здригаюся, коли я думаю, що хтось жорстоко обчислює тисячу сум Рімана вручну.

61 normal-distribution algorithms history tables

2

Чому лише три перегородки? (навчання, валідація, тест)

Коли ви намагаєтесь пристосувати моделі до великого набору даних, загальною порадою є розподіл даних на три частини: навчальний, валідаційний та тестовий набір даних. Це пояснюється тим, що моделі зазвичай мають три "рівні" параметрів: перший "параметр" - клас моделі (наприклад, SVM, нейронна мережа, випадковий ліс), другий набір параметрів - параметри "регуляризації" …

61 machine-learning model-selection data-mining

5

Яку проблему вирішують методи усадки?

Сезон відпусток дав мені змогу згорнутися біля вогню з елементами статистичного навчання . Виходячи з (частої) перспективи економетрики, у мене виникають проблеми з розумінням використання методів усадки, таких як регресія хребта, ласо і найменший кут регресії (ЛАР). Як правило, мене цікавлять оцінки самих параметрів та досягнення неупередженості або принаймні узгодженості. …

61 lasso ridge-regression shrinkage lars

6

Яка різниця між "вкладеною" і "вкладеною" моделлю?

У літературі про ієрархічні / багаторівневі моделі я часто читав про "вкладені моделі" та "невкладені моделі", але що це означає? Може хтось може надати мені кілька прикладів чи розповісти про математичні наслідки цього фразування?

61 hypothesis-testing terminology nested-models nested-data

9

Як і чому працюють нормалізація та масштабування функцій?

Я бачу, що багато алгоритмів машинного навчання краще працюють із середнім скасуванням та вирівнюванням коваріації. Наприклад, нейронні мережі мають тенденцію до конвергенції швидше, а K-Means, як правило, покращує кластеризацію за допомогою попередньо оброблених функцій. Я не бачу, щоб інтуїція, що стоїть за цими етапами попередньої обробки, призводила до покращення продуктивності. …

61 machine-learning neural-networks covariance normalization

7

Регресія з декількома залежними змінними?

Чи можливо мати (множинне) рівняння регресії з двома або більше залежними змінними? Звичайно, ви можете запустити два окремі рівняння регресії, по одному для кожного DV, але це не здається, що воно би захопило будь-які відносини між двома DV?

61 regression

6

Стандартні помилки для прогнозування ласо за допомогою R

Я намагаюся використовувати модель LASSO для прогнозування, і мені потрібно оцінити стандартні помилки. Напевно, хтось уже написав пакет для цього. Але наскільки я бачу, жоден з пакетів CRAN, які роблять прогнози за допомогою LASSO, не поверне стандартні помилки для цих прогнозів. Отже, моє питання: Чи є пакет або якийсь код …

60 r standard-error prediction lasso

4

Чому включення широти та довготи в обліковий запис GAM для просторової автокореляції?

Я створив узагальнені моделі добавок для вирубки лісів. Для обліку просторової автокореляції я включив широту та довготу як згладжений термін взаємодії (тобто s (x, y)). Я ґрунтувався на цьому, читаючи багато робіт, де автори кажуть: «для обліку просторової автокореляції координати точок були включені як згладжені терміни», але вони ніколи не …

60 r modeling spatial autocorrelation gam

5

Чому збір даних до отримання значного результату збільшує рівень помилок типу I?

Мені було цікаво, чому саме збір даних до отримання значного результату (наприклад, ) (тобто p-хакерство) збільшує рівень помилок типу I?p<.05p<.05p \lt .05 Я також дуже вдячний за Rдемонстрацію цього явища.

60 r hypothesis-testing p-value simulation type-i-and-ii-errors