Запитання з тегом «resampling»

Переустановка - це взяття проби з проби. Найпоширенішими способами є jackknifing (взяття підпроби, наприклад, всі значення, крім 1), і завантажувальна програма (вибірки з заміною). Ці методи можуть дати надійну оцінку розподілу вибірки, коли було б важко або неможливо отримати аналітичний аналіз.

2
Методи перекомпонування / моделювання: Монте-Карло, завантажувальний, ножовий, перехресна перевірка, тести рандомізації та тести перестановки
Я намагаюся зрозуміти різницю між різними методами перестановки (моделювання в Монте-Карло, параметричне завантаження, непараметричне завантаження, джеккніфінг, крос-валідація, тести рандомізації та тести перестановки) та їх реалізацію в моєму власному контексті за допомогою Р. Скажімо, у мене є така ситуація - я хочу виконати ANOVA зі змінною Y ( Yvar) та X …

5
Чи можете ви переобладнати, навчаючи алгоритми машинного навчання за допомогою CV / Bootstrap?
Це питання може бути занадто відкритим, щоб отримати остаточну відповідь, але, сподіваємось, ні. Алгоритми машинного навчання, такі як SVM, GBM, Random Forest тощо, як правило, мають деякі вільні параметри, які, крім деякого правила керівництва, повинні бути налаштовані на кожен набір даних. Як правило, це робиться за допомогою певної техніки повторного …

2
Наскільки добре завантажувальна оцінка наближає розподіл вибірки оцінювача?
Нещодавно вивчивши завантажувальний тренажер, я придумав концептуальне питання, яке все ще мене спантеличує: У вас населення, і ви хочете знати атрибут популяції, тобто , де я використовую для представлення населення. Наприклад, ця може бути середньою кількістю населення. Зазвичай ви не можете отримати всі дані від населення. Отже, ви намалюєте зразок …

2
Навіщо використовувати стратифіковану перехресну перевірку? Чому це не шкодить вигоди, пов'язаному з дисперсією?
Мені сказали, що корисно використовувати стратифіковану перехресну перевірку, особливо коли класи відповідей є неврівноваженими. Якщо одна мета перехресної перевірки - допомогти врахувати випадковість нашого вихідного зразка навчальних даних, то, безумовно, зробити так, щоб кожен складник мав однаковий розподіл класів, буде проти цього, якщо ви не впевнені, що ваш оригінальний навчальний …

2
які припущення про тест на перестановку?
Часто зазначається, що тести на перестановку не мають припущень, однак це, безумовно, не вірно. Наприклад, якщо мої зразки якимось чином співвіднесені, я можу уявити, що перекручування їх міток було б не правильним. Думаю, що про цю проблему я знайшов, - це речення з вікіпедії: "Важливе припущення, що стоїть за тестом …

2
Методи повторного відбору проб
Я використовую бібліотеку caretв R для тестування різних процедур моделювання. trainControlОб'єкт дозволяє вказати метод повторної дискретизації. Ці методи описані в документації розділі 2.3 , і включають в себе: boot, boot632, cv, LOOCV, LGOCV, repeatedcvі oob. Хоча деякі з них легко зробити висновки, не всі ці методи чітко визначені. Які процедури …
20 r  resampling  caret 

2
Класифікація тестування даних про незбалансований вибірки
Я працюю над сильно незбалансованими даними. У літературі використовується декілька методів, щоб збалансувати дані за допомогою повторного відбору вибірок (над- чи недостатня вибірка). Два хороших підходи: SMOTE: Техніка надмірного відбору синтетичних меншин ( SMOTE ) ADASYN: Адаптивний синтетичний підбір проб для збалансованого навчання ( ADASYN ) Я реалізував ADASYN, оскільки …

2
Тест на IID відбір проб
Як би ви перевірили чи перевірили, чи є вибірка IID (незалежна та ідентично розподілена)? Зауважте, що я не маю на увазі гауссових та ідентично розподілених, просто IID. І ідея, яка мені спадає на думку, полягає в тому, щоб неодноразово розділити вибірку на дві під зразки однакового розміру, виконати тест Колмогорова-Смірнова …

2
Яка процедура "перевірки завантажувальної завантаження" (так само "перекомплектування перехресної перевірки")?
«Перевірка завантажувального завантаження» / «переспромінення перехресної перевірки» є для мене новим, але обговорювалося у відповіді на це питання . Я збираю, що це включає 2 типи даних: реальні дані та змодельовані дані, де заданий набір модельованих даних генерується з реальних даних шляхом перекомпонування з заміною, поки змодельовані дані не мають …

2
Кращі запропоновані підручники про перекомпонування Bootstrap?
Я просто хотів запитати, які, на вашу думку, найкращі доступні книги про завантажувальну службу там. Під цим я не обов'язково маю на увазі лише той, який написали його розробники. Скажіть, будь-ласка, який підручник, на вашу думку, найкращий для завантажувального програмного забезпечення, який охоплює такі критерії? Філософська / гносеологічна основа методики, …

1
Чи відомий цей метод перекомпонування часових рядів у літературі? Чи має це ім’я?
Нещодавно я шукав способи повторного втілення часових рядів у такий спосіб Приблизно зберігають автоматичну кореляцію довгих процесів пам'яті. Збережіть область спостережень (наприклад, повторно впорядкований часовий ряд цілих чисел - це ще й цілий ряд цілих чисел). Може впливати лише на деякі ваги, якщо потрібно. Я придумав таку схему перестановки для …

3
Чому корисна завантажувальна програма?
Якщо все, що ви робите, - це повторний відбір з емпіричного розподілу, чому б не просто вивчити емпіричний розподіл? Наприклад, замість вивчення змінності за допомогою повторного відбору проб, чому б не просто кількісно оцінити мінливість від емпіричного розподілу?

1
Чи потрібне центрування під час завантаження вибірки?
Читаючи про те, як наблизити розподіл середньої вибірки, я натрапив на непараметричний метод завантаження. Мабуть, можна наблизити розподіл до розподілу ˉ X ∗ n - ˉ X n , де ˉ X ∗ n позначає середнє значення вибірки завантажувального зразка.Х¯н- мкX¯n−μ\bar{X}_n-\muХ¯∗н- X¯нX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nХ¯∗нX¯n∗\bar{X}_n^* Моє питання тоді: чи потрібно мені центрування? Для …

1
Чому б не завжди використовувати інтерфейси завантажувача?
Мені було цікаво, як виконуються завантажувальні інтерфейси завантаження (і BCa у бартикулярних) на нормально розподілених даних. Здається, багато роботи над вивченням їх роботи на різних типах розподілів, але не вдалося знайти нічого в нормально розподілених даних. Оскільки, здається, спочатку вивчити очевидну річ, я вважаю, що документи просто занадто старі. Я …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.