Запитання з тегом «model-selection»

Вибір моделі - це проблема визначити, яка модель з якогось набору працює найкраще. Популярні методи включають критерії , AIC та BIC, тестові набори та перехресну перевірку. В якійсь мірі вибір функції є підпроблемою вибору моделі. R2

3
AIC або p-значення: який вибрати для вибору моделі?
Я абсолютно нова у цій справі, але не знаю, яку модель вибрати. Я зробив поетапну регресію вперед, вибравши кожну змінну на основі найнижчого AIC. Я придумав 3 моделі, в яких я не впевнений, яка «найкраща». Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 …

3
Проаналізуйте графіки ACF та PACF
Я хочу дізнатися, чи я на правильному шляху, аналізуючи свої сюжети ACF та PACF: Довідка: (Реф.: Філіпс Ганс Франс, 1998) Оскільки і ACF, і PACF демонструють значні значення, я вважаю, що модель ARMA буде задовольняти мої потреби ACF може використовуватися для оцінки MA-частини, тобто значення q, PACF може використовуватися для …

1
Вибір моделі з логістичною регресією Фірта
У невеликому наборі даних ( ), з яким я працюю, кілька змінних дають мені ідеальний прогноз / розділення . Тому я використовую логістичну регресію Фірта для вирішення цього питання.n ∼ 100н∼100n\sim100 Якщо я вибираю найкращу модель за допомогою AIC або BIC , чи слід включати Фірмовий штрафний строк у ймовірність …

2
Перехресне підтвердження (узагальнення помилок) після вибору моделі
Примітка: Справа n >> p Я читаю «Елементи статистичного навчання» і є різні згадки про «правильний» спосіб перехресної перевірки (наприклад, сторінка 60, стор. 245). Зокрема, моє запитання полягає в тому, як оцінити кінцеву модель (без окремого тестового набору) за допомогою CV-кратного реєстру чи завантажувального завантаження, коли відбувся пошук моделі? Здається, …

4
Як спроектувати новий вектор на простір PCA?
Після проведення аналізу основних компонентів (PCA) я хочу спроектувати новий вектор на простір PCA (тобто знайти його координати в системі координат PCA). Я розрахував PCA мовою R за допомогою prcomp. Тепер я повинен мати можливість помножити свій вектор на матрицю обертання PCA. Чи повинні головні компоненти в цій матриці розташовуватися …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

6
Коли випадати термін з регресійної моделі?
Чи може хтось порадити, якщо таке має сенс: Я маю справу зі звичайною лінійною моделлю з 4-ма предикторами. Я замислююся над тим, чи відмовитись від найменш значущого терміна. Це -значення трохи більше 0,05. Я стверджував на користь відмови від цього шляхом: Помноження оцінки цього терміна на (наприклад) міжквартирний діапазон вибіркових …

4
Які правильні значення для точності та відкликання у кращих випадках?
Точність визначається як: p = true positives / (true positives + false positives) Чи правильно, що як true positivesі false positivesпідхід 0, точність наближається до 1? Те саме запитання для відкликання: r = true positives / (true positives + false negatives) Зараз я впроваджую статистичний тест, де мені потрібно обчислити …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
Чи може корисна регуляризація, якщо нас цікавить лише моделювання, а не прогнозування?
Чи може регуляризація бути корисною, якщо нас цікавить лише оцінка (та інтерпретація) параметрів моделі, а не прогнозування чи прогнозування? Я бачу, як регуляризація / перехресне підтвердження є надзвичайно корисним, якщо ваша мета - зробити хороші прогнози щодо нових даних. Але що робити, якщо ви займаєтеся традиційною економікою, і все, що …

2
Як вибрати структуру випадкових та фіксованих ефектів у лінійних змішаних моделях?
Розглянемо наступні дані з двостороннього проектування предметів: df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 6 …

7
Заходи складності моделі
Як можна порівняти складність двох моделей з однаковою кількістю параметрів? Редагувати 19.09 : Для уточнення складність моделі - це міра того, наскільки важко вчитися з обмежених даних. Коли дві моделі однаково добре вписуються в існуючі дані, модель з меншою складністю дасть менші помилки на майбутні дані. Коли використовуються наближення, це …

1
Парадокс у виборі моделі (AIC, BIC, пояснити чи передбачити?)
Прочитавши Галіт Шмулі «Пояснити або передбачити» (2010), мене спантеличить очевидне протиріччя. Є три приміщення, Вибір моделі на основі AIC проти BIC (кінець стор. 300 - початок стор. 301): просто кажучи, AIC слід використовувати для вибору моделі, призначеної для прогнозування, тоді як BIC слід використовувати для вибору моделі для пояснення . …

4
Визначення найкращої функції підгонки кривої з лінійних, експоненціальних та логарифмічних функцій
Контекст: З питання про обмін стеком з математики (чи можу я створити програму) , хтось має набір точок , і хоче приєднати до нього криву, лінійну, експоненціальну чи логарифмічну. Звичайний метод полягає в тому, щоб почати з вибору одного з них (який визначає модель), а потім зробити статистичні розрахунки.x−yx−yx-y Але …

3
Криві ROC проти точності відкликання на незбалансованому наборі даних
Я щойно закінчив читати цю дискусію. Вони стверджують, що PR AUC кращий за RUC AUC на незбалансованому наборі даних. Наприклад, у нас є 10 зразків тестових наборів даних. 9 зразків є позитивними та 1 - негативними. У нас є жахлива модель, яка прогнозує все позитивне. Таким чином, ми матимемо метрику, …

1
Чи BIC намагається знайти справжню модель?
Це питання - це подальше спостереження або спроба вияснити можливу плутанину щодо теми, яку я та багато інших вважають дещо складними щодо різниці між АПК та BIC. У дуже приємній відповіді на цю тему @Dave Kellen ( /stats//a/767/30589 ) ми читаємо: Ваше запитання означає, що AIC та BIC намагаються відповісти …

3
Побудова та вибір моделей за допомогою Hosmer et al. 2013. Прикладна логістична регресія в R
Це моє перше повідомлення в StackExchange, але я використовую його як ресурс досить довгий час, я зроблю все можливе, щоб використовувати відповідний формат і внести відповідні зміни. Також це багатозначне питання. Я не був впевнений, чи варто розділити це питання на кілька різних постів або лише на одну. Оскільки всі …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.