Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Коли (і навіщо) слід взяти журнал розподілу (чисел)?
Скажімо, у мене є деякі історичні дані, наприклад, минулі ціни на акції, коливання цін на авіаквитки, минулі фінансові дані компанії ... Тепер хтось (або якась формула) підійде і каже "давайте візьмемо / скористаємося журналом розподілу", і ось де я йду ЧОМУ ? Запитання: ЧОМУ слід брати в першу чергу журнал …

4
Як інтерпретувати сюжет QQ
Я працюю з невеликим набором даних (21 спостереження) і маю наступний звичайний QQ графік в R: Бачачи, що сюжет не підтримує нормальність, що я можу зробити висновок про базовий розподіл? Мені здається, що розподіл, перекошений вправо, був би кращим, це правильно? Крім того, які інші висновки можна зробити з даних?

9
Чому раптове захоплення тензорами?
Останнім часом я помічав, що багато людей розробляють тензорні еквіваленти багатьох методів (тензорна факторизація, тензорні ядра, тензори для моделювання тем тощо) Мене цікавить, чому світ раптом захоплюється тензорами? Чи є нещодавні статті, які є особливо дивними, що призвели до цього? Це обчислювально набагато дешевше, ніж раніше підозрювали? Я не буду …

3
Коли я повинен використовувати ласо проти гребеня?
Скажімо, я хочу оцінити велику кількість параметрів, і я хочу штрафувати деякі з них, тому що я вважаю, що вони повинні мати незначний ефект у порівнянні з іншими. Як вирішити, яку схему штрафу використовувати? Коли регресія хребта більш доречна? Коли я повинен використовувати ласо?


8
Коли в лінійній регресії доцільно використовувати журнал незалежної змінної замість фактичних значень?
Я шукаю кращого розподілу для незалежної змінної, про яку йдеться, або для зменшення ефекту людей, що переживають люди, або чогось іншого?

8
Як боротися з ідеальним розділенням при логістичній регресії?
Якщо у вас є змінна, яка ідеально відокремлює нулі та цілі в цільовій змінній, R видасть таке попереджувальне повідомлення "ідеальне або квазідосконале розділення": Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Ми все ще отримуємо модель, але оцінки коефіцієнтів завищені. Як ви з цим справляєтесь на практиці?

21
Чи є у Юлії надія на присутність у статистичному співтоваристві?
Нещодавно я прочитав пост від R-Bloggers, який пов’язаний із цим дописом у блозі від Джона Майлза Уайта про нову мову під назвою Джулія . Джулія користується тимчасовим компілятором, який дає їй злі швидкі часи роботи і ставить її на той самий порядок швидкості, що і C / C ++ (той …

3
Р-ль шпаргалка
На цьому форумі триває багато дискусій щодо правильного способу визначення різних ієрархічних моделей за допомогою lmer . Я думав, що було б чудово мати всю інформацію в одному місці. Кілька питань для початку: Як вказати кілька рівнів, де одна група вкладена в межах іншої: це (1|group1:group2)чи(1+group1|group2) ? Яка різниця між …

3
Криві ROC vs точності та відкликання
Я розумію формальні відмінності між ними, що я хочу знати, коли важливіше використовувати одне проти іншого. Чи завжди вони забезпечують додаткове розуміння продуктивності даної системи класифікації / виявлення? Коли розумно надати їх обом, скажімо, в папері? замість лише одного? Чи існують альтернативні (можливо, більш сучасні) дескриптори, які відображають відповідні аспекти …


2
Генеративні та дискримінаційні
Я знаю, що генеративні засоби "засновані на П( х , у)П(х,у)P(x,y) ", а дискримінаційні засоби "засновані на П( у| х)П(у|х)P(y|x) ", але я плутаюся в декількох моментах: Вікіпедія (+ багато інших звернень до Інтернету) класифікує такі речі, як SVM та дерева рішень, як дискримінаційні. Але вони навіть не мають ймовірнісних …


6
Чи може бути значенням розподілу ймовірностей, що перевищує 1?
На сторінці Вікіпедії про наївних класифікаторів Байєса є такий рядок: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (Розподіл ймовірностей на 1 - це нормально. Площа під кривою дзвону дорівнює 1.) Як значення >1>1>1 може бути в порядку? Я вважав, що всі значення ймовірності виражаються в діапазоні 0≤p≤10≤p≤10 \leq p \leq 1 . Крім того, …

6
Як вибрати модель прогнозування після перехресної перевірки k-кратної?
Мені цікаво, як вибрати передбачувану модель після того, як зробить перехресну перевірку K-кратну кількість. Це може бути незручно сформульовано, тому дозвольте мені пояснити більш докладно: щоразу, коли я запускаю перехресну перевірку K-кратну кількість, я використовую K підмножини даних тренувань і закінчую K різними моделями. Мені хотілося б знати, як вибрати …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.