Статистика та великі дані

2

Коли (і навіщо) слід взяти журнал розподілу (чисел)?

Скажімо, у мене є деякі історичні дані, наприклад, минулі ціни на акції, коливання цін на авіаквитки, минулі фінансові дані компанії ... Тепер хтось (або якась формула) підійде і каже "давайте візьмемо / скористаємося журналом розподілу", і ось де я йду ЧОМУ ? Запитання: ЧОМУ слід брати в першу чергу журнал …

173 distributions data-transformation logarithm

4

Як інтерпретувати сюжет QQ

Я працюю з невеликим набором даних (21 спостереження) і маю наступний звичайний QQ графік в R: Бачачи, що сюжет не підтримує нормальність, що я можу зробити висновок про базовий розподіл? Мені здається, що розподіл, перекошений вправо, був би кращим, це правильно? Крім того, які інші висновки можна зробити з даних?

172 r data-visualization inference qq-plot

9

Чому раптове захоплення тензорами?

Останнім часом я помічав, що багато людей розробляють тензорні еквіваленти багатьох методів (тензорна факторизація, тензорні ядра, тензори для моделювання тем тощо) Мене цікавить, чому світ раптом захоплюється тензорами? Чи є нещодавні статті, які є особливо дивними, що призвели до цього? Це обчислювально набагато дешевше, ніж раніше підозрювали? Я не буду …

171 machine-learning references matrix linear-algebra tensor

3

Коли я повинен використовувати ласо проти гребеня?

Скажімо, я хочу оцінити велику кількість параметрів, і я хочу штрафувати деякі з них, тому що я вважаю, що вони повинні мати незначний ефект у порівнянні з іншими. Як вирішити, яку схему штрафу використовувати? Коли регресія хребта більш доречна? Коли я повинен використовувати ласо?

167 regression lasso ridge-regression

30

Статистика Жарти

Що ж, у нас є улюблені цитати статистики. Що про жарти статистики?

165 references humor

8

Коли в лінійній регресії доцільно використовувати журнал незалежної змінної замість фактичних значень?

Я шукаю кращого розподілу для незалежної змінної, про яку йдеться, або для зменшення ефекту людей, що переживають люди, або чогось іншого?

164 regression distributions data-transformation logarithm regression-strategies

8

Як боротися з ідеальним розділенням при логістичній регресії?

Якщо у вас є змінна, яка ідеально відокремлює нулі та цілі в цільовій змінній, R видасть таке попереджувальне повідомлення "ідеальне або квазідосконале розділення": Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Ми все ще отримуємо модель, але оцінки коефіцієнтів завищені. Як ви з цим справляєтесь на практиці?

163 r regression logistic separation

21

Чи є у Юлії надія на присутність у статистичному співтоваристві?

Нещодавно я прочитав пост від R-Bloggers, який пов’язаний із цим дописом у блозі від Джона Майлза Уайта про нову мову під назвою Джулія . Джулія користується тимчасовим компілятором, який дає їй злі швидкі часи роботи і ставить її на той самий порядок швидкості, що і C / C ++ (той …

161 r computational-statistics software computing julia

3

Р-ль шпаргалка

На цьому форумі триває багато дискусій щодо правильного способу визначення різних ієрархічних моделей за допомогою lmer . Я думав, що було б чудово мати всю інформацію в одному місці. Кілька питань для початку: Як вказати кілька рівнів, де одна група вкладена в межах іншої: це (1|group1:group2)чи(1+group1|group2) ? Яка різниця між …

160 r mixed-model random-effects-model fixed-effects-model lme4-nlme

3

Криві ROC vs точності та відкликання

Я розумію формальні відмінності між ними, що я хочу знати, коли важливіше використовувати одне проти іншого. Чи завжди вони забезпечують додаткове розуміння продуктивності даної системи класифікації / виявлення? Коли розумно надати їх обом, скажімо, в папері? замість лише одного? Чи існують альтернативні (можливо, більш сучасні) дескриптори, які відображають відповідні аспекти …

159 machine-learning roc precision-recall

2

Як отримати кількість рядків фрейму data.f в R? [зачинено]

Прочитавши набір даних: dataset <- read.csv("forR.csv") Як я можу отримати R, щоб він міг кількість випадків, які він містить? Також, чи буде повертане значення включати виключення випадків, пропущених із na.omit(dataset)?

157 r

2

Генеративні та дискримінаційні

Я знаю, що генеративні засоби "засновані на П( х , у)П(х,у)P(x,y) ", а дискримінаційні засоби "засновані на П( у| х)П(у|х)P(y|x) ", але я плутаюся в декількох моментах: Вікіпедія (+ багато інших звернень до Інтернету) класифікує такі речі, як SVM та дерева рішень, як дискримінаційні. Але вони навіть не мають ймовірнісних …

153 machine-learning generative-models

7

PCA на кореляцію чи коваріацію?

Які основні відмінності між виконанням аналізу основних компонентів (PCA) на кореляційній матриці та на матриці коваріації? Чи дають вони однакові результати?

153 correlation pca covariance factor-analysis

6

Чи може бути значенням розподілу ймовірностей, що перевищує 1?

На сторінці Вікіпедії про наївних класифікаторів Байєса є такий рядок: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (Розподіл ймовірностей на 1 - це нормально. Площа під кривою дзвону дорівнює 1.) Як значення >1>1>1 може бути в порядку? Я вважав, що всі значення ймовірності виражаються в діапазоні 0≤p≤10≤p≤10 \leq p \leq 1 . Крім того, …

149 distributions probability normal-distribution pdf

6

Як вибрати модель прогнозування після перехресної перевірки k-кратної?

Мені цікаво, як вибрати передбачувану модель після того, як зробить перехресну перевірку K-кратну кількість. Це може бути незручно сформульовано, тому дозвольте мені пояснити більш докладно: щоразу, коли я запускаю перехресну перевірку K-кратну кількість, я використовую K підмножини даних тренувань і закінчую K різними моделями. Мені хотілося б знати, як вибрати …

148 cross-validation model-selection