Чи краще робити дослідницький аналіз даних лише на базі даних тренувань?


15

Я роблю дослідницький аналіз даних (EDA) на наборі даних. Тоді я виберу деякі функції, щоб передбачити залежну змінну.

Питання:
Чи варто робити ЗНО на моєму навчальному наборі даних? Або я повинен приєднатися до наборів даних про навчання та тестування разом, а потім робити ЗНО на них обох та вибирати функції на основі цього аналізу?

Відповіді:


6

Я рекомендую переглянути "7.10.2 Неправильний і правильний спосіб зробити перехресну перевірку" в http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .

Автори наводять приклад, коли хтось робить таке:

  1. Екранізуйте прогнози: знайдіть підмножину «хороших» предикторів, які демонструють досить сильну (універсарну) кореляцію з мітками класів
  2. Використовуючи саме цей підмножина предикторів, побудуйте багатофакторний класифікатор.
  3. Використовуйте перехресну валідацію для оцінки невідомих параметрів настройки та для оцінки похибки прогнозування кінцевої моделі

Це дуже схоже на те, щоб зробити EDA на всіх (тобто навчання плюс тест) своїх даних та використовувати EDA для вибору "хороших" прогнозів.

Автори пояснюють, чому це проблематично: перехресне затверджене значення помилок буде штучно низьким, що може ввести вас в оману, якщо ви думаєте, що ви знайшли хорошу модель.


1

Отже, ви хочете визначити незалежні змінні, які впливають на вашу залежну змінну?

Тоді обидва ваші підходи насправді не рекомендуються.

Визначившись із своїм дослідницьким питанням, слід розробити свою теорію. Тобто, використовуючи літературу, ви повинні визначити змінні, які повинні мати ефект (ви повинні мати можливість пояснити причину).


6
Хоча ця думка, по суті, погоджується з класичною концепцією статистичних тестів (і як таке, мені боляче погодитися), існує безліч сучасних проблем, з якими це просто неможливо. Наприклад, припустимо, ви хочете перевірити, чи пов’язаний будь-який із 20000 генів, що кодують білок, з новим спадковим захворюванням. Немає підстав, який би підготував вас, ніякого способу "придумати теорію", і ЗНО - це єдиний спосіб почати роботу. І якщо у вас буде достатньо даних для ЗНО та підтверджуючого аналізу, ви можете десь дістатися.
Кліф АВ

3
"Ви повинні розробити свою теорію" - це гарна ідея, але не завжди можлива, особливо в галузі. Іноді ви просто продовжуєте прогнозувати, не розвиваючи ніяких теорій
Аксакал

1

Застосовувати EDA на тестових даних неправильно.

Навчання - це процес пошуку правильних відповідей, щоб створити найкращу модель. Цей процес він не обмежується лише запуском коду на навчальних даних. Використання інформації від EDA для вирішення, яку модель використовувати, налаштування параметрів тощо, є частиною навчального процесу, а отже, не повинен бути дозволений доступ до тестових даних. Тож, щоб бути вірним собі, використовуйте дані тесту лише для перевірки працездатності вашої моделі.

Крім того, якщо ви усвідомлюєте, що модель не працює добре під час тестування, а потім повертаєтесь до коригування моделі, то це теж не добре. Натомість розділіть свої дані навчання на два. Використовуйте одну для тренувань, а іншу для тестування та налаштування ваших моделей. Див. Яка різниця між тестовим набором та набором перевірки?


0

Після абзацу цієї відповіді . Хасті далі пояснює с.245 :

"Ось правильний спосіб здійснити перехресну перевірку в цьому прикладі:

  1. Розділіть зразки на K навмання перехресних перевірок (груп).
  2. Для кожного згину k = 1, 2,. . . , K
    (a) Знайдіть підмножину «хороших» прогнокторів, які демонструють досить сильну (одновимірну) кореляцію з мітками класів, використовуючи всі вибірки, за винятком складених k.
    (b) Використовуючи саме цей підмножина предикторів, побудуйте багатофакторний класифікатор, використовуючи всі вибірки, за винятком складеної k
    (c) Використовуйте класифікатор для прогнозування міток класу для зразків у кратному положенні k. "

-3

Ви робите EDA для всього набору даних. Наприклад, якщо ви використовуєте перехресну валідацію відпустки один раз , як би ви робили EDA лише на наборі даних про навчання ? У цьому випадку кожне спостереження - це тренування та проведення хоча б один раз.

Отже, ні, ви формуєте своє розуміння даних по всій вибірці. Якщо ви перебуваєте в промислових установках, це ще виразніше. Очікується, що ви покажете тенденції та загальний опис даних зацікавленим сторонам фірми, і ви це зробите на всій вибірці.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.