Нещодавно я почав використовувати випробування з виборкою важливістю Pareto важливої вибіркової перехресної перевірки (PSIS-LOO), описаної в цих роботах:
- Vehtari, A., & Gelman, A. (2015). Парето вирівнював важливість вибірки. додрук arXiv ( посилання ).
- Vehtari, A., Gelman, A., & Gabry, J. (2016). Практичне оцінювання байесівської моделі з використанням перехресної валідації "відключення" та "WAIC". додрук arXiv ( посилання )
Це являє собою дуже привабливий підхід до оцінки зразкової моделі, оскільки він дозволяє виконувати LOO-CV з одним циклом MCMC, і він нібито кращий, ніж існуючі інформаційні критерії, такі як WAIC.
PSIS-LOO має діагностику, щоб визначити, чи є наближення надійним, а саме заданими показниками розподілів Парето, пристосованими до хвостів емпіричних розподілів важливих ваг (одна вага на точку даних). Якщо коротко, якщо розрахункова вага , погані речі можуть трапитися.
На жаль, я виявив, що в застосуванні цього методу до моєї проблеми для більшості моделей, які цікавлять, я знаходжу, що велика частка . Не дивно, що деякі з повідомлених імовірностей журналів LOO були явно безглуздими (порівняно з іншими наборами даних). В якості подвійної перевірки я здійснив традиційну (і багато часу) перехресну перевірку, виявивши, що дійсно у вищенаведеному випадку PSIS-LOO давав жахливі помилкові результати (вгору результати дуже добре узгоджуються з 10 -складне резюме для моделей, у яких всі ). Для запису я використовую реалізацію MATLAB PSIS-LOO від Aki Vehtari.
Можливо, мені просто не пощастило в тому, що моя поточна і перша проблема, в якій я застосовую цей метод, "складна" для PSIS-LOO, але я підозрюю, що цей випадок може бути відносно поширеним. У таких випадках, як моя, папір для автомобілів, Gelman & Gabry просто говорить:
Навіть якщо оцінка PSIS має кінцеву дисперсію, коли , користувач повинен розглянути вибірку безпосередньо з для проблематичного , використовувати кратну перехресну- валідація або використовувати більш надійну модель.
Це очевидні, але не дуже ідеальні рішення, оскільки вони вимагають багато часу або потребують додаткового підбору (я вдячний, що MCMC та оцінка моделі стосуються лише неповторної роботи, але чим менше, тим краще).
Чи є якийсь загальний метод, який ми можемо застосувати заздалегідь, щоб спробувати запобігти виходу з ладу PSIS-LOO? У мене є кілька орієнтовних ідей, але мені цікаво, чи вже є емпіричне рішення, яке люди приймають.