Видаліть дублікати з навчального набору для класифікації


9

Скажімо, у мене є ряд рядків для проблеми класифікації:

Х1,...ХN,Y

Де Х1,...,ХN є ознаками / провісниками та Y - клас, до якого належить поєднання функцій рядка.

Багато комбінацій функцій та їх класи повторюються в наборі даних, який я використовую для встановлення класифікатора. Мені просто цікаво, чи допустимо видалення дублікатів (я в основному виконую group by X1 ... XN Yв SQL)? Дякую.

PS:

Це для набору даних лише для двійкової присутності, де пріори класів досить перекошені

Відповіді:


13

Ні, це не прийнятно. Повторення - це те, що забезпечує вагу доказів.

Якщо ви вийдете свої дублікати, конюшина з чотирьох листочків настільки ж значна, як і звичайна конюшина з три листками, оскільки кожна траплятиметься один раз, тоді як у реальному житті є конюшина з чотирма листочками на кожні 10 000 звичайних конюшини.

Навіть якщо ваші пріори "досить перекошені", як ви кажете, мета навчального набору полягає в накопиченні реального досвіду, якого ви не досягнете, якщо втратите інформацію про частоту.


1

Я згоден з попередньою відповіддю, але ось мої застереження. Доцільно видаляти дублікати під час відокремлення зразків для навчання та тестування для конкретних класифікаторів, таких як Дерева рішень. Скажімо, 20% ваших даних належали до певного класу і14тгодтих, хто прагнув до тестування, тоді такі алгоритми, як Дерева рішень, створять шлюзи до цього класу з повторюваними зразками. Це може забезпечити оманливі результати на тестовому наборі, оскільки по суті є дуже специфічний шлюз для правильного виводу.

Якщо ви розгортаєте цей класифікатор для абсолютно нових даних, він може бути приголомшливо поганим, якщо не буде зразків, подібних до вищезгаданих 20% вибірок.

Аргумент : Можна стверджувати, що ця ситуація вказує на недолік набору даних, але я думаю, що це стосується програм реального життя.

Видалення дублікатів для нейронних мереж, байєсівських моделей тощо неприпустимо.


Іншим можливим рішенням може бути зважування дублікатів нижче, залежно від частоти їх появи.
Ракшит Котарі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.