Запитання з тегом «model-selection»

Вибір моделі - це проблема визначити, яка модель з якогось набору працює найкраще. Популярні методи включають критерії , AIC та BIC, тестові набори та перехресну перевірку. В якійсь мірі вибір функції є підпроблемою вибору моделі. R2

1
logloss vs gini / auc
Я навчив дві моделі (двійкові класифікатори, використовуючи h2o AutoML), і хочу вибрати одну для використання. У мене є такі результати: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 і aucі loglossстовпці - це показники крос-валідації (для перехресної …

2
Кращі запропоновані підручники про перекомпонування Bootstrap?
Я просто хотів запитати, які, на вашу думку, найкращі доступні книги про завантажувальну службу там. Під цим я не обов'язково маю на увазі лише той, який написали його розробники. Скажіть, будь-ласка, який підручник, на вашу думку, найкращий для завантажувального програмного забезпечення, який охоплює такі критерії? Філософська / гносеологічна основа методики, …

1
Чи можна рекомендувати книгу Бернхема-Андерсона про багатомодельний висновок?
Як мотивована нещодавньою зміною статистики вибору моделі за замовчуванням у пакеті прогнозу R з AIC на AICc, мені цікаво, чи останній дійсно застосуємо там, де є перша. У мене є низка запитань з цього приводу, і ось перше. Я знаю, що замінювати AIC на AICc скрізь - це те, що …

2
Чи поступова регресія забезпечує упереджену оцінку r-квадрата населення?
У психології та інших сферах часто застосовується форма ступінчастої регресії, яка передбачає наступне: Подивіться на провідники, що залишилися (спочатку їх у моделі немає) та визначте предиктор, що призводить до найбільшої зміни r-квадрата; Якщо p-значення зміни r-квадрата менше альфа (зазвичай .05), тоді включіть цей предиктор і поверніться до кроку 1, інакше …

5
Чому застосування вибору моделі за допомогою AIC дає мені незначні значення p для змінних
У мене є питання щодо АПК і сподіваюся, що ви можете мені допомогти. Я застосував вибір моделі (назад або вперед) на основі АПК на моїх даних. І деякі з обраних змінних закінчилися значеннями p> 0,05. Я знаю, що люди говорять, що ми повинні вибирати моделі на основі AIC замість p-значення, …

2
Вибір моделі Box-Jenkins
Процедура вибору моделі Box-Jenkins в аналізі часових рядів починається з перегляду функцій автокореляції та часткової автокореляції серії. Ці графіки можуть запропонувати відповідні і у моделі ARMA . Процедура продовжується, вимагаючи від користувача застосувати критерії AIC / BIC для вибору найбільш парсимоніальної моделі серед тих, що виробляють модель із терміном помилки …

4
Який сенс одноманітної регресії перед багатоваріантною регресією?
Зараз я працюю над проблемою, за якою у нас є невеликий набір даних, і ми зацікавлені в ефекті причинності лікування на результат. Мій радник доручив мені виконати одноманітну регресію для кожного прогноктора з результатом як відповідь, потім призначення лікування як відповідь. Тобто, мене просять встановити регресію по одній змінній за …

2
Конфліктні підходи до вибору змінної: AIC, p-значення або те й інше?
Як я розумію, вибір змінних на основі p-значень (принаймні, в контексті регресії) сильно хибний. Здається, вибір змінних на основі AIC (або подібного) також вважається дефектом з деяких причин, хоча це здається трохи незрозумілим (наприклад, дивіться моє запитання та деякі посилання на цю тему тут: Що саме таке "поетапний вибір моделі"? …

2
Лінійна проти нелінійна регресія
У мене є набір значень і які теоретично пов'язані експоненціально:уxxxyyy y=axby=axby = ax^b Одним із способів отримання коефіцієнтів є застосування природних логарифмів в обидві сторони та встановлення лінійної моделі: > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] Інший спосіб отримати це - використання нелінійної регресії з …

2
Що таке тести на шматки?
Відповідаючи на запитання щодо вибору моделі за наявності мультиколінеарності , Френк Харрелл запропонував : Помістіть усі змінні в модель, але не перевіряйте ефект однієї змінної, скоригованої на ефекти конкуруючих змінних ... Тести блоку конкуруючих змінних є потужними, оскільки колінеарні змінні об'єднують сили в загальний тест на асоціацію множинного ступеня свободи, …

2
Розуміння завантажувальної програми для перевірки та вибору моделі
Я думаю, що я розумію, як працюють основи завантаження , але я не впевнений, що розумію, як я можу використовувати завантажувальний інструмент для вибору моделі або щоб уникнути зайвого набору. Для вибору моделі, наприклад, ви б просто обрали модель, яка дає найменшу помилку (можливо, дисперсію?) У всіх зразках завантажувальної програми? …

2
Розуміння критерію АПК та Шварца
Я веду логістичну модель. Фактичний набір даних моделі містить понад 100 змінних, але я вибираю тестовий набір даних, в якому є близько 25 змінних. До цього я також створив набір даних, який мав 8-9 змінних. Мені кажуть, що значення AIC і SC можна використовувати для порівняння моделі. Я помітив, що …

3
Використання інформаційної геометрії для визначення відстаней та обсягів… корисно?
Я натрапив на велику кількість літератури, яка виступає за використання метрики Інформації Фішера як природної локальної метрики в просторі розподілів ймовірностей, а потім інтегруючи її за визначенням відстаней і обсягів. Але чи справді ці "інтегровані" кількості корисні для чого-небудь? Я не знайшов теоретичних виправдань і дуже мало практичних застосувань. Одним …

2
Чи є обставини, коли слід застосовувати поетапну регресію?
Поступова регресія в минулому використовувалася в багатьох біомедичних працях, але, схоже, це покращується з кращою освітою багатьох її питань. Однак багато старих рецензентів все ще просять цього. Які обставини, коли поетапна регресія відіграє певну роль і їх слід використовувати, якщо такі є?

1
Поясніть кроки алгоритму LLE (локального лінійного вбудовування)?
Я розумію, що основний принцип алгоритму для LLE складається з трьох етапів. Пошук сусідства кожної точки даних за деяким показником, таким як k-nn. Знайдіть ваги для кожного сусіда, який позначає вплив, який має сусід на точку даних. Побудуйте низькомірне вбудовування даних на основі обчислених ваг. Але математичне пояснення кроків 2 …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.