Чи справді добре виконувати непідконтрольний підбір функції до перехресної перевірки?


9

У елементах статистичного навчання я знайшов таке твердження:

Існує одна кваліфікація: початкові кроки скринінгу без нагляду можуть бути виконані до того, як зразки будуть випущені. Наприклад, ми могли вибрати 1000 предикторів з найбільшою дисперсією для всіх 50 зразків, перш ніж починати перехресну перевірку. Оскільки ця фільтрація не передбачає міток класу, вона не дає передбачувачам несправедливої ​​переваги.

Чи справді це дійсно? Я маю на увазі, попередньо фільтруючи атрибути, ми не наслідуємо навчальні дані / нове середовище даних - тож чи має значення це те, що фільтрація, яку ми виконуємо, не контролюється? Чи не краще насправді робити всі етапи попередньої обробки в процесі перехресної перевірки? Якщо це не так, то це означає, що всі непідконтрольні попередній обробці можуть бути виконані заздалегідь, включаючи нормалізацію функції / PCA тощо. Але виконуючи це на всьому навчальному наборі, ми фактично витікаємо деякі дані до навчального набору. Я можу погодитися, що при відносно стабільному наборі даних ці відмінності, швидше за все, повинні бути дуже крихітними - але це не означає, що їх не існує, правда? Який правильний спосіб подумати про це?

Відповіді:


2

Як етап, виконаний до перехресної перевірки, непідконтрольний вибір функції дещо схожий на нормалізацію функції:

  1. З точки зору конкретного складання в перехресній валідації, дані поїзда заглядали на дані випробувань (хоча і лише в незалежних змінних).

  2. Цей вигляд відносно легкий.

Нормалізація ознак перед перехресною валідацією обговорювалася в цьому питанні . Цитуючи там відповідь Дікрана Марсупіала

Перехресне підтвердження найкраще розглядати як метод оцінки ефективності статистичної процедури, а не статистичну модель. Таким чином, щоб отримати неупереджену оцінку ефективності, вам потрібно повторити кожен елемент цієї процедури окремо в кожній складці перехресної перевірки, яка включала б нормалізацію.

Отже, якщо ви можете зекономити ресурси, найкраще було б, щоб кожна перехресна перевірка склала будь -яку оброблювану даними обробку з нуля.

Однак, як говориться у відповідях на це питання, на практиці зміна порядку не ймовірно сильно змінить. Звичайно, не існує суттєвої несправедливої ​​переваги, яку демонструє залежний вибір функцій. ІМХО, це тлумачення цитати з " Елементів статистичного навчання" .у


Ну, це в основному збігається з моїми думками, і останнє речення тут насправді є короткою відповіддю на моє запитання. Дякую, я зроблю це прийнятою відповіддю.
Матек

1
Ефект може бути невеликим, але це не може бути , що мало. Як ви кажете, це як попереднє масштабування ваших незалежних змінних перед CV, що використовуватиме "майбутнє" (тестові дані), щоб допомогти масштабувати "теперішнє" (дані тренувань), що не відбудеться в реальному світі. Якщо у вас випадкові складки (не використовуються часові ряди, стратифікація тощо), це менше ефекту, але навіщо зламати бар'єр "Поїзд / Тест" і все це?
Уейн

@Wayne Я, безумовно, згоден з вами, що коли це можливо, найкраще не порушувати бар'єр поїздів / тестів. Особисто я ніколи не стикався з реальними випадками, коли це призвело до зміни (WT без нагляду FS та / або нормалізація), але я стикався з випадками, коли було неможливо зробити вибір функції "правильним шляхом" (тобто в межах кожного скласти). Однак я бачу з вашої тонкої відповіді (яку я заявляю), що ви зіткнулися з протилежним випадком, тому, мабуть, обидва сценарії існують.
Амі Таворі

Я не впевнений, що я стикався з результатами резюме, коли нормалізація також змінилася, і я позначаю, що зазвичай роблю 10-кратне резюме, а це означає, що показник складе лише 10%, що робить його меншим. Я бачив різницю з чимось на кшталт 67/33 або навіть 75/25 розбиття без резюме
Уейн

9

Я прошу відрізнятись у цьому питанні думкою @ AmiTavory, а також елементами статистичного навчання.

Виходячи із застосованого поля з дуже низькими розмірами вибірки, я маю досвід, що також непідконтрольні етапи попередньої обробки можуть ввести сильний зміщення.

У моєму полі це найчастіше PCA для зменшення розмірності, перш ніж класифікатор буде проведений. Хоча я не можу показати тут дані, я бачив, що PCA + (перехресне затверджене LDA) порівняно з перехресною (PCA + LDA) заниженням рівня помилок приблизно на порядок . (Зазвичай це показник того, що PCA не є стабільним.)

Що стосується аргументації "Несправедливої ​​переваги" Елементів, якщо вивчити дисперсію випробувань + тестові випадки, ми закінчимо функціями, які добре працюють як з навчальними, так і з тестовими. Таким чином, ми створюємо тут самореалізаційне пророцтво, що є причиною надмірних упереджень. Цей ухил низький, якщо у вас досить зручні розміри зразків.

Тож я рекомендую підхід, який трохи більш консервативний, ніж Елементи:

  • розрахунки попередньої обробки, які враховують більше одного випадку, повинні бути включені у перевірку: тобто вони обчислюються лише на відповідному навчальному наборі (і потім застосовуються до даних тесту)
  • кроки попередньої обробки, які розглядають кожен випадок самостійно (я спектроскопіст: прикладами можуть бути корекція базової лінії та нормалізація інтенсивності, що є нормальною нормалізацією), можуть бути виведені з перехресної перевірки до тих пір, поки вони будуть до першого кроку, обчислює для кількох випадків.

Незважаючи на це, також перехресне підтвердження є лише скороченням для правильного дослідження валідації. Таким чином, ви можете сперечатися з практичністю:

  • Ви можете перевірити, чи дає відповідна попередня обробка стабільні результати (це можна зробити, наприклад, шляхом перехресної перевірки). Якщо ви вважаєте, що це абсолютно стабільно вже з меншими розмірами вибірки, IMHO, ви можете стверджувати, що не буде багато вперед, якщо витягнути його з перехресної перевірки.

  • Однак, щоб навести попереднього керівника: час обчислення не є науковим аргументом.
    Я часто запускаю "попередній перегляд" декількох складок і декількох ітерацій для перехресної перевірки, щоб переконатися, що весь код (включаючи підсумок / графіки результатів), а потім залишаю його протягом ночі або в вихідні або близько того на сервері для більш дрібнозерниста перехресна перевірка.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.