Статистика та великі дані

8

Цільова функція, функція витрат, функція втрат: чи це одне і те ж?

У машинному навчанні люди говорять про об'єктивну функцію, функцію витрат, функцію втрат. Це просто різні назви одного і того ж? Коли їх використовувати? Якщо вони не завжди посилаються на одне й те саме, які відмінності?

80 machine-learning terminology artificial-intelligence

2

Дивергенція KL між двома універсальними гаусівцями

Мені потрібно визначити KL-розбіжність між двома гауссами. Я порівнюю свої результати з цими , але не можу відтворити їх результат. Мій результат, очевидно, неправильний, оскільки KL не дорівнює 0 для KL (p, p). Цікаво, де я роблю помилку, і запитую, чи хтось може це помітити. Нехай і . З PRML …

79 normal-distribution kullback-leibler

9

Ймовірність однієї майбутньої події в реальному житті: що це означає, коли кажуть, що "Хілларі має 75% шансу на перемогу"?

Оскільки вибори - це разова подія, це не експеримент, який можна повторити. Точно, що технічно означає твердження "Хілларі має 75% шансів на перемогу" ? Я шукаю статистично правильного визначення, не інтуїтивного чи концептуального. Я фанат аматорської статистики, який намагається відповісти на це запитання, яке з'явилося в дискусії. Я впевнений, що …

79 probability prediction politics

7

Книга Чому Джудея Перл: Чому він обводить статистику?

Я читаю книгу Юдеї Перли, чому вона потрапляє мені під шкіру 1 . Зокрема, мені здається, що він беззастережно базується на "класичній" статистиці, висуваючи солом'яний аргумент що статистика ніколи, ніколи не може досліджувати причинно-наслідкові зв'язки, що її ніколи не цікавлять причинно-наслідкові відносини, і що статистика "стала моделлю - підприємство з …

79 causality

8

Обчислення оптимальної кількості бункерів в гістограмі

Мені цікаво знайти якнайкращий метод, який я можу визначити, скільки ящиків я повинен використовувати в гістограмі. Мої дані повинні становити від 30 до 350 об’єктів, і, зокрема, я намагаюся застосувати порогове значення (як метод Оцу), коли "хороші" об'єкти, яких у мене повинно бути менше і мають бути більш розкинуті, відокремлені …

79 rule-of-thumb histogram

5

Яка різниця між позаполітичним та політичним навчанням?

Веб-сайт із штучним інтелектом визначає позаполітичне та політичне навчання наступним чином: "Учасник, який перебуває поза політикою, дізнається значення оптимальної політики незалежно від дій агента. Q-навчання - це вчитель, який не відповідає політиці. Учень, який проводить політику, дізнається значення політики, яку проводить агент, включаючи етапи дослідження. . " Я хотів би …

78 machine-learning reinforcement-learning artificial-intelligence

6

Як сказати, чи достатньо "кластеризованих" даних для алгоритмів кластеризації для отримання значущих результатів?

Як ви могли б знати, якщо ваші (високомірні) дані демонструють достатню кластеризацію, щоб результати від kmeans або іншого алгоритму кластеризації насправді мали значення? Зокрема, для алгоритму k-означає, на скільки має бути зменшення дисперсії всередині кластера, щоб фактичні результати кластеризації були значимими (а не помилковими)? Чи має бути кластеризація очевидною, коли …

78 clustering k-means

21

Безкоштовні ресурси для навчання R

Мені цікаво вивчити R на дешевому. Який найкращий безкоштовний ресурс / книга / підручник для вивчення R?

78 r references

5

Як обчислити площу під кривою (AUC) або c-статистику вручну

Мене цікавить розрахунок площі під кривою (AUC) або c-статистика вручну для двійкової логістичної регресійної моделі. Наприклад, у наборі даних перевірки я маю справжнє значення для залежної змінної, утримання (1 = збережено; 0 = не збережено), а також передбачуваний статус утримання для кожного спостереження, згенерованого моїм регресійним аналізом, використовуючи модель, яка …

78 regression logistic classification roc auc

7

Яка користь від розриву суцільної змінної предиктора?

Мені цікаво, яке значення має взяття суцільної змінної предиктора та розбиття його (наприклад, на квінтили), перш ніж використовувати його в моделі. Мені здається, що, поширюючи змінну, ми втрачаємо інформацію. Це просто так, щоб ми могли моделювати нелінійні ефекти? Якби ми зберігали змінну безперервною, і це насправді не було прямим лінійним …

78 regression modeling continuous-data binning regression-strategies

1

Кореляція між номінальною (IV) та суцільною (DV) змінною

У мене є номінальна змінна (різні теми розмови, кодовані як тема0 = 0 тощо) та ряд змінних масштабів (DV), таких як тривалість розмови. Як я можу отримати кореляції між номінальною та масштабною змінними?

77 correlation continuous-data categorical-data

3

Приклад: регресія LASSO з використанням glmnet для двійкового результату

Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Як створити гарний графік результатів кластерного аналізу k-означає?

Я використовую R для кластеризації K-засобів. Я використовую 14 змінних для запуску K-засобів Який досить спосіб побудувати результати K-засобів? Чи існують якісь реалізації? Чи має 14 змінних ускладнення побудови результатів? Я знайшов щось під назвою GGcluster, яке виглядає круто, але воно ще в розробці. Я також читав щось про картографування …

77 data-visualization classification k-means unsupervised-learning

3

Коли R квадрат негативний?

Я розумію, що не може бути негативним, оскільки це квадрат Р. Однак я провів просту лінійну регресію в SPSS з єдиною незалежною змінною та залежною змінною. Мій вихід SPSS дає мені негативне значення для . Якби я розраховував це вручну з R, тоді було б позитивним. Що SPSS зробив, щоб …

77 regression spss r-squared

7

Т-тест на ненормований при N> 50?

Давно я дізнався, що для нормального розподілу необхідно використовувати два зразки Т-тесту. Сьогодні колега сказала мені, що дізналася, що для N> 50 нормальний розподіл не потрібен. Це правда? Якщо це правда через центральну межу теореми?

77 normal-distribution t-test central-limit-theorem