Нормалізація до перехресної перевірки


17

Чи мають нормалізуючі дані (щоб мати нульове середнє значення та стандартне відхилення одиниці) перед виконанням повторної перехресної перевірки k-кратного перешкоди, як-небудь негативні наслідки, такі як перевиконання?

Примітка. Це стосується ситуації, коли #cases> total #features

Я перетворюю деякі свої дані за допомогою перетворення журналу, а потім нормалізую всі дані, як зазначено вище. Тоді я виконую вибір функції. Далі я застосовую вибрані функції та нормалізовані дані до повторної 10-кратної перехресної перевірки, щоб спробувати оцінити ефективність узагальненого класифікатора, і я занепокоєний тим, що використання всіх даних для нормалізації може виявитися недоцільним. Чи слід нормалізувати дані тестів для кожної складки, використовуючи нормалізуючі дані, отримані з даних тренувань для цієї складки?

Будь-які думки вдячно отримані! Вибачте, якщо це питання здається очевидним.

Редагувати: Перевіривши це (відповідно до пропозицій нижче), я виявив, що нормалізація до резюме не відрізняється значною ефективністю в порівнянні з нормалізацією в CV.

Відповіді:


14

Щоб відповісти на ваше головне питання, було б оптимальним і більш доцільним масштабувати в резюме. Але це, мабуть, не має великого значення і може не мати значення на практиці взагалі, якщо ваш класифікатор повторно змінить дані, що більшість робить (принаймні в R).

Однак вибір функції перед перехресною валідацією є БІЛЬКИМ НІ та призведе до надмірного розміщення, оскільки ви виберете їх залежно від того, як вони працюють у цілому наборі даних. Перетворення журналу нормально виконувати назовні, оскільки перетворення не залежить від фактичних даних (більше від типу даних) і не є тим, що ви б не робили, якби у вас було лише 90% даних замість 100% і не налаштовано за даними.

Щоб також відповісти на ваш коментар, очевидно, чи призведе це до перевиконання, буде залежати від вашої форми вибору функції. Якщо ви обираєте їх випадково (чому б це зробити?) Або через апріорні теоретичні міркування (інша література), це не має значення. Але якщо це залежить від вашого набору даних, це буде. Елементи статистичного навчання мають гарне пояснення. Ви можете вільно та законно завантажити .pdf тут http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Точка, що стосується вас, знаходиться у розділі 7.10.2 на сторінці 245 п'ятого друку. Він має назву "Неправильні та правильні способи зробити перехресну перевірку".


Дякуємо - напевно, якщо єдині результати, що повідомляються, оцінюють показники, отримані за допомогою обраної моделі (особливостей) у кожному складі, це не може призвести до перевиконання? Після всіх випадків ви повідомляєте лише про узагальнену продуктивність заданого набору функцій.
BGreene

Я розширив свою відповідь, щоб звернутися до вашого коментаря. Я думаю, що пояснення за посиланням краще, ніж те, що я зараз можу приготувати.
Ерік

Дякую. Це говорить про те, що стандартний вибір функцій на основі фільтра ніколи не повинен використовуватися, а вибір функції на основі обгортки або еквівалент замість цього використовувати. Чи все-таки це справедливо для ситуації, коли #Cases> #Features? (У мене 259 випадків, загалом 56 функцій). Я б припустив, що потенціал помилок тут менше?
BGreene

5

Перехресне підтвердження найкраще розглядати як метод оцінки ефективності статистичної процедури, а не статистичну модель. Таким чином, щоб отримати неупереджену оцінку ефективності, вам потрібно повторити кожен елемент цієї процедури окремо в кожній складці перехресної перевірки, яка включала б нормалізацію. Тому я б сказав нормалізувати в кожному складі.

Єдиний час, коли це не буде необхідним, це якщо статистична процедура була абсолютно нечутливою до масштабування та середнього значення даних.


Я думаю, що це хороша відповідь, хоча це не є суворим, але все-таки стає зрозумілим. Я думаю, що сенс полягає в тому, що якщо ви нормалізуєтеся в кожну складку, гарантується, що нормалізація не зміщує показники. Як було написано, здавалося, що немає іншого способу уникнути упередженості, хоча Дікран вказував в останньому рядку, що є й інші способи. Якщо робити нормалізацію всередині CV, це ніколи не збільшує упередженість, на відміну від того, щоб робити це зовні, що може. Упередженість може все-таки не сильно вплинути, як вказувалося в іншій відповіді.
Том Андерсон

1

Я думаю, що якщо нормалізація включає лише два параметри, і ви маєте хороший зразок розміру, це не буде проблемою. Мене більше турбує трансформація та процес вибору змінних. Сьогодні, як видається, викликає гнів перехресне підтвердження в 10 разів. Хіба ніхто не використовує завантажувальну програму 632 або 632+ для оцінки рівня помилок класифікатора, як це запропонував спочатку Ефрон (1983) в JASA, а згодом пізніше в роботі Ефрона та Тібширані з 632+?


0

Мені особисто подобається метод .632 Що в основному є завантаженням із заміною. Якщо ви це зробите і видалите дублікати, ви отримаєте 632 записи з вхідного набору 1000. Вид акуратний.


Оцінювач 632 відрізняється від того, що ви говорите. Це фактично лінійна комбінація двох оцінювачів швидкості помилок, що дають вагу 0,632 для завантажувального пристроюе0Оцінювач і 0,368 до рівня очевидної помилки (також її називають оцінкою повторної заміни).
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.