Як порівняти спостережувані та очікувані події?


9

Припустимо, у мене є один зразок частоти 4 можливих подій:

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

і я маю очікувані ймовірності моїх подій:

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

За допомогою суми спостережуваних частот моїх чотирьох подій (18) я можу обчислити очікувані частоти подій правильно?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

Як можна порівняти спостережувані величини з очікуваними значеннями? перевірити, чи є мої розрахункові ймовірності хорошими прогнозами?

Я думав про тест-чи-квадрат, але результат змінюється залежно від розміру вибірки (n = 18), я маю на увазі, якщо я помножую спостережувані значення на 1342 і використовую той самий метод, результат відрізняється. Можливо, тест у парі з вілкосом працює, але що ви пропонуєте?

Якщо можна запропонувати в R, було б краще.

r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

Відповіді:


4

Ви згадуєте, що отримуєте різні результати, якщо помножувати всі значення на 1342 рік. Це не проблема. Ви повинні отримати дуже різні результати. Якщо ви перевернете монету, і вона піднімає голови, це не дуже говорить. Якщо ви перевернете монету1342 рік раз, і ви отримуєте голову кожного разу, у вас є набагато більше інформації, яка говорить про те, що монета не є справедливою

Зазвичай ви хочете використовувати альтернативи а χ2 тест, коли очікувана кількість випадків настільки мала (скажімо, під 5) у великому відсотку ваших категорій (скажімо, принаймні 20%). Одним з можливих варіантів є точний критерій Фішера , який реалізується в R . Ви можете переглянутиχ2 тест як наближення до точного тесту Фішера, і наближення добре лише тоді, коли більша кількість очікуваних підрахунків велика.


Дякую, хто з них краще для цього: просто тест на рибалку? або тест рибалки з р симульованим значенням? і чому?
Хуан

Моделювання вводить помилки, які можуть бути невеликими, але які не повинні бути необхідними для малих значень. Якщо у вас єк категорій та ноб'єктів, то кількість можливих результатів . Коли це мало для стандартів комп'ютерів (можливо, менше ), я б просто використав точні обчислення. Якщо точні розрахунки повільні, протестуйте помилки моделювання та перевірте, чи вони прийнятні для збільшення швидкості. (н+к-1н)107
Дуглас Заре
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.