Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

8
Цільова функція, функція витрат, функція втрат: чи це одне і те ж?
У машинному навчанні люди говорять про об'єктивну функцію, функцію витрат, функцію втрат. Це просто різні назви одного і того ж? Коли їх використовувати? Якщо вони не завжди посилаються на одне й те саме, які відмінності?

2
Дивергенція KL між двома універсальними гаусівцями
Мені потрібно визначити KL-розбіжність між двома гауссами. Я порівнюю свої результати з цими , але не можу відтворити їх результат. Мій результат, очевидно, неправильний, оскільки KL не дорівнює 0 для KL (p, p). Цікаво, де я роблю помилку, і запитую, чи хтось може це помітити. Нехай і . З PRML …

9
Ймовірність однієї майбутньої події в реальному житті: що це означає, коли кажуть, що "Хілларі має 75% шансу на перемогу"?
Оскільки вибори - це разова подія, це не експеримент, який можна повторити. Точно, що технічно означає твердження "Хілларі має 75% шансів на перемогу" ? Я шукаю статистично правильного визначення, не інтуїтивного чи концептуального. Я фанат аматорської статистики, який намагається відповісти на це запитання, яке з'явилося в дискусії. Я впевнений, що …

7
Книга Чому Джудея Перл: Чому він обводить статистику?
Я читаю книгу Юдеї Перли, чому вона потрапляє мені під шкіру 1 . Зокрема, мені здається, що він беззастережно базується на "класичній" статистиці, висуваючи солом'яний аргумент що статистика ніколи, ніколи не може досліджувати причинно-наслідкові зв'язки, що її ніколи не цікавлять причинно-наслідкові відносини, і що статистика "стала моделлю - підприємство з …
79 causality 

8
Обчислення оптимальної кількості бункерів в гістограмі
Мені цікаво знайти якнайкращий метод, який я можу визначити, скільки ящиків я повинен використовувати в гістограмі. Мої дані повинні становити від 30 до 350 об’єктів, і, зокрема, я намагаюся застосувати порогове значення (як метод Оцу), коли "хороші" об'єкти, яких у мене повинно бути менше і мають бути більш розкинуті, відокремлені …

5
Яка різниця між позаполітичним та політичним навчанням?
Веб-сайт із штучним інтелектом визначає позаполітичне та політичне навчання наступним чином: "Учасник, який перебуває поза політикою, дізнається значення оптимальної політики незалежно від дій агента. Q-навчання - це вчитель, який не відповідає політиці. Учень, який проводить політику, дізнається значення політики, яку проводить агент, включаючи етапи дослідження. . " Я хотів би …

6
Як сказати, чи достатньо "кластеризованих" даних для алгоритмів кластеризації для отримання значущих результатів?
Як ви могли б знати, якщо ваші (високомірні) дані демонструють достатню кластеризацію, щоб результати від kmeans або іншого алгоритму кластеризації насправді мали значення? Зокрема, для алгоритму k-означає, на скільки має бути зменшення дисперсії всередині кластера, щоб фактичні результати кластеризації були значимими (а не помилковими)? Чи має бути кластеризація очевидною, коли …


5
Як обчислити площу під кривою (AUC) або c-статистику вручну
Мене цікавить розрахунок площі під кривою (AUC) або c-статистика вручну для двійкової логістичної регресійної моделі. Наприклад, у наборі даних перевірки я маю справжнє значення для залежної змінної, утримання (1 = збережено; 0 = не збережено), а також передбачуваний статус утримання для кожного спостереження, згенерованого моїм регресійним аналізом, використовуючи модель, яка …

7
Яка користь від розриву суцільної змінної предиктора?
Мені цікаво, яке значення має взяття суцільної змінної предиктора та розбиття його (наприклад, на квінтили), перш ніж використовувати його в моделі. Мені здається, що, поширюючи змінну, ми втрачаємо інформацію. Це просто так, щоб ми могли моделювати нелінійні ефекти? Якби ми зберігали змінну безперервною, і це насправді не було прямим лінійним …

1
Кореляція між номінальною (IV) та суцільною (DV) змінною
У мене є номінальна змінна (різні теми розмови, кодовані як тема0 = 0 тощо) та ряд змінних масштабів (DV), таких як тривалість розмови. Як я можу отримати кореляції між номінальною та масштабною змінними?

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
Як створити гарний графік результатів кластерного аналізу k-означає?
Я використовую R для кластеризації K-засобів. Я використовую 14 змінних для запуску K-засобів Який досить спосіб побудувати результати K-засобів? Чи існують якісь реалізації? Чи має 14 змінних ускладнення побудови результатів? Я знайшов щось під назвою GGcluster, яке виглядає круто, але воно ще в розробці. Я також читав щось про картографування …

3
Коли R квадрат негативний?
Я розумію, що не може бути негативним, оскільки це квадрат Р. Однак я провів просту лінійну регресію в SPSS з єдиною незалежною змінною та залежною змінною. Мій вихід SPSS дає мені негативне значення для . Якби я розраховував це вручну з R, тоді було б позитивним. Що SPSS зробив, щоб …

7
Т-тест на ненормований при N> 50?
Давно я дізнався, що для нормального розподілу необхідно використовувати два зразки Т-тесту. Сьогодні колега сказала мені, що дізналася, що для N> 50 нормальний розподіл не потрібен. Це правда? Якщо це правда через центральну межу теореми?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.