Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Чи справді необхідна стандартизація перед Лассо?
Я прочитав три основні причини стандартизації змінних перед чимось таким, як Lassoрегресія: 1) Інтерпретабельність коефіцієнтів. 2) Можливість ранжувати значення коефіцієнта за відносною величиною оцінок коефіцієнта після усадки. 3) Не потрібно перехоплення. Але мені цікаво найголовніше. Чи є у нас підстави думати, що стандартизація поліпшила б узагальнення вибірки моделі? Також мені …

5
Перевищення логістичної регресійної моделі
Чи можливо перевиконати модель логістичної регресії? Я побачив відео, яке говорить про те, що якщо моя площа під кривою ROC вище 95%, то, швидше за все, це буде надмірно встановленим, але чи можна переоцінити логістичну регресійну модель?

1
Чи спростувала Дебора Майо доказ Бірнбаума щодо принципу ймовірності?
Це дещо пов'язане з моїм попереднім запитанням тут: Приклад, коли принцип ймовірності * насправді має значення? Мабуть, Дебора Майо опублікувала документ у статистичній науці, в якому спростувала доказ Бірнбаума принципу ймовірності. Чи може хто-небудь пояснити головний аргумент Бірнбаума та контр-аргумент Майо? Чи правильно вона (логічно)?

1
Чи може ступінь свободи бути цілим числом?
Коли я використовую GAM, це дає мені залишковий коефіцієнт DF (останній рядок у коді). Що це означає? Виходячи за приклад GAM, загалом, чи може число ступенів свободи бути нецілим числом?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Походження терміна "регуляризація"
Коли я ввожу поняття своїм учням, мені часто цікаво розповісти їм, звідки береться термінологія ("регресія", наприклад, термін із цікавим походженням). Мені не вдалося розкрити історію / передумови терміна "регуляризація" в статистичному / машинному навчанні. Отже, яке походження терміна регуляризація ?

2
Скільки раку легенів насправді викликає куріння? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закритий минулого року . На тютюнових виробах часто можна побачити статистику, що дев'ять із десяти раків легенів спричинені курінням, але чи точно це число? Я скептично ставлюсь …

1
Чому glmnet використовує «наївну» еластичну сітку з оригінального паперу Zou & Hastie?
β *=(1+λ2) β .L = 1н∥∥у- Xβ∥∥2+ λ1∥ β∥1+ λ2∥ β∥22,L=1н‖у-Хβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗= ( 1 + λ2) β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Однак наступні glmnetстатті Фрідмана, Хасті та Тибширані (2010) Шляхи регуляризації для узагальнених лінійних моделей за допомогою координатного спуску не …

3
Чи не можна зараз сказати, що моделі глибокого навчання є інтерпретаційними? Чи є особливості вузлів?
Для статистичної та машинної моделей навчання існує кілька рівнів інтерпретаційності: 1) алгоритм в цілому, 2) частини алгоритму в цілому 3) частини алгоритму на конкретних входах, і ці три рівні розділяються на дві частини кожен, один для тренувань та один для функції eval. Останні дві частини набагато ближче, ніж до першої. …

3
Які наслідки вибору різних функцій втрат у класифікації для приблизної втрати 0-1
Ми знаємо, що деякі об'єктивні функції легше оптимізувати, а деякі - важкі. І є багато функцій втрат, які ми хочемо використовувати, але важко використовувати, наприклад, втрата 0-1. Тож ми знаходимо деякі функції втрати проксі-сервера для виконання роботи. Наприклад, ми використовуємо втрату шарніру або логістичну втрату, щоб "приблизно" втратити 0-1. Наступний …

2
Чи однакова косинусна схожість на нормалізовану l2 евклідову відстань?
Ідентичний сенс, що він буде робити ідентичні результати для ранжирування подібності між вектором ¯u і набором векторами V . У мене є векторна космічна модель, яка в якості параметрів має міру відстані (евклідова відстань, схожість косинусів) і техніку нормалізації (немає, l1, l2). Наскільки я розумію, результати налаштувань [косинус, жоден] повинні …

9
Коли кореляція може бути корисною без причинного зв'язку?
Вислів домашніх тварин багатьох статистиків: "Кореляція не означає причинного зв'язку". Це, безумовно, вірно, але одне, що НЕ МАЄТЕ мається на увазі, це те, що кореляція має мало або не має значення. Це правда? Чи марно мати знання про те, що дві змінні співвідносяться? Я не уявляю, що це так. Я …


2
Чому випадкові прогулянки взаємопов'язані?
Я помітив, що в середньому абсолютне значення коефіцієнта кореляції Пірсона є постійним близьким до будь-якої пари незалежних випадкових прогулянок, незалежно від довжини ходи.0.560.42 Чи може хтось пояснити це явище? Я очікував, що кореляція стане меншою, оскільки довжина ходи збільшується, як і у будь-якій випадковій послідовності. Для своїх експериментів я використовував …

4
Що не так з t-SNE проти PCA для зменшення розмірів за допомогою R?
У мене є матриця з цифрами з плаваючою точкою 336x256 (336 бактеріальних геномів (стовпців) х 256 нормалізованих частот тетрануклеотидів (рядки), наприклад, кожен стовпець додає до 1). Я отримую хороші результати, коли запускаю свій аналіз, використовуючи принцип компонентного аналізу. Спочатку я обчислюю кластери kmeans за даними, потім запускаю PCA та розфарбовую …
27 r  pca  tsne 

2
Чи варіація збігається з дисперсією?
Це моє перше питання щодо перехресної перевірки тут, тому, будь ласка, допоможіть мені, навіть якщо це здається тривіальним :-) Перш за все, питання може бути результатом мовних розбіжностей або, можливо, у мене справжні недоліки в статистиці. Тим не менш, ось це: Чи є зміна та відхилення в статистиці населення однаковими …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.