Порівняння розподілів продуктивності узагальнення

Скажіть, що у мене є два методи навчання проблеми класифікації , і , і я оцінюю їх узагальнюючу ефективність чимось на зразок повторної перехресної перевірки або завантаження. З цього процесу я отримую розподіл балів та для кожного методу через ці повтори (наприклад, розподіл значень AUC ROC для кожної моделі). $A$ $B$ $P_A$ $P_B$

Дивлячись на ці розподіли, може бути, що але (тобто очікувана ефективність узагальнення вище, ніж , але щодо цієї оцінки існує більше невизначеності). $\mu_A \ge \mu_B$ $\sigma_A \ge \sigma_B$ $A$ $B$

Я думаю, що це називається дилемою зміщення-дисперсії у регресії.

Які математичні методи я можу використати для порівняння та та врешті-решт прийняти обгрунтоване рішення, яку модель використовувати? $P_A$ $P_B$

Примітка. Для простоти я маю на увазі два методи і тут, але мене цікавлять методи, які можна використовувати для порівняння розподілу балів ~ 1000 методів навчання (наприклад, за допомогою пошуку в сітці) і в кінцевому підсумку зробити остаточне рішення про те, яку модель використовувати. $A$ $B$

cross-validation model-selection

— Амеліо Васкес-Рейна
джерело

Я думаю, що тут не застосовується термін компроміс-дисперсія , оскільки ви не розкладаєте середню квадратичну помилку на зміщення та дисперсію, і ви не говорите про дисперсію оцінки, а про дисперсію бала.

— Лукас

Дякую @Lucas. Я намагаюся оцінити бал своїх класифікаторів і за небаченими даними. З цього приводу я подумав, що можу взяти середнє значення балів за побаченими даними як мої оцінки (тобто та для і відповідно). Чи відрізняється дисперсія цих оцінок від дисперсії балів та ?

A

$A$

B

$B$

E (P_{A})

$E(P_A)$

E (P_{B})

$E(P_B)$

A

$A$

B

$B$

P_{A}

$P_A$

P_{B}

$P_B$

— Амеліо Васкес-Рейна

@ user815423426 Я думаю, що порівняння залежить від функції втрати. Дієбольд і Маріано (2002) мають гарний документ, що вивчає ваше запитання. Вони запропонували кілька статистичних тестів, порівнюючи результати "узагальнення". Я не знаю, як налаштувати посилання в коментарях. Документ: Діебольд, Френсіс X. та Роберт С. Маріано. "Порівняння точності прогнозування". Журнал ділової та економічної статистики 20.1 (2002): 134-144.

— напівблін

Якщо існують лише два способи, A і B, я би обчислив ймовірність того, що для довільного навчального / тестового розділу, що помилка (згідно з деякою відповідною метрикою продуктивності) для моделі A була нижчою, ніж помилка для моделі B. Якщо ця ймовірність були більшими за 0,5, я вибрав модель A і інше модель B (див. тест Манна-Вітні U)? Однак я сильно підозрюю, що в кінцевому підсумку вибиратимуть модель із нижньою середньою величиною, якщо розподіли статистичних показників продуктивності не дуже -симетричний.

З іншого боку, для пошуку в сітці ситуація дещо інша, тому що ви насправді не порівнюєте різні методи, а натомість налаштовуєте (гіпер-) параметри тієї ж моделі, щоб відповідати кінцевій вибірці даних (у цьому випадку опосередковано через крос -визнання). Я виявив, що така настройка може бути дуже схильною до надмірного розміщення, дивіться в моєму документі

Гевін К. Каулі, Ніколас Л. Т. Талбот, "Про надмірну відповідність вибору моделі та наступні ухили відбору в оцінці продуктивності", Journal of Machine Learning Research, 11 (July): 2079−2107, 2010. ( www )

У мене є огляд статті, в якій видно, що, мабуть, найкраще використовувати порівняно грубу сітку для машин ядра (наприклад, SVM), щоб уникнути перевиконання критерію вибору моделі. Іншим підходом (який я не досліджував, тому застереження лектора!) Було б вибрати модель з найвищою помилкою, яка статистично не поступається кращій моделі, знайденій в пошуку в сітці (хоча це може бути досить песимістичним підходом, особливо для невеликих наборів даних).

Справжнє рішення, мабуть, не в оптимізації параметрів за допомогою пошуку в сітці, а в середньому за значеннями параметрів, або в баєсівському підході, або просто як ансамблевий метод. Якщо ви не оптимізуєте, важче перевтомлюватися!

— Дікран Марсупіал
джерело

Дякую Дікрану. Коли ви говорите, "average over the parameter values"я думаю, що розумію, як це зробити за допомогою ансамблевого методу (наприклад, побудова ансамблевого виходу як середнього рівня результатів класифікатора), але я не впевнений, як це зробити з байєсівським підходом при роботі з дискримінаційною моделлю. Я розумію теорію повністю байєсівського підходу (тобто уникайте точкових оцінок і маргіналізації параметрів для побудови остаточного заднього), але, припускаючи, що мій попередній показник щодо параметрів є рівномірним, це не було б рівнозначним побудові усереднювального ансамблю ?

— Амеліо Васкес-Рейна

У баєсівському підході моделі зважуватимуться за їх граничною вірогідністю (тобто байєсівськими доказами) та будь-якими попередніми розміщеннями над гіперпараметрами, тому це був би особливий випадок усереднення ансамблю за певним методом зважування моделей.

— Дікран Марсупіал