Контрольоване навчання з "рідкісними" подіями, коли рідкість пов'язана з великою кількістю подій, що зустрічаються фактично

13

Припустимо, ви можете спостерігати "матчі" між покупцями та продавцями на ринку. Ви також можете спостерігати за характеристиками як покупців, так і продавців, які ви хочете використовувати для прогнозування майбутніх відповідностей та надання рекомендацій обом сторонам ринку.

Для простоти припустимо, що є N покупців і N продавців, і кожен знайде відповідність. Є N матчів і (N-1) (N-1) невідповідностей. Набір навчальних даних "все включено" має спостереження N + (N-1) * (N-1), які можуть бути надзвичайно великими. Здавалося б, вибіркове вибірка з (N-1) (N-1) невідповідностей та тренування алгоритму щодо зменшених даних може бути ефективнішим. Мої запитання:

(1) Чи є вибірка з невідповідних для побудови навчального набору даних розумним способом вирішення цієї проблеми?

(2) Якщо (1) вірно, чи існує суворий спосіб вирішити, яку велику частину (N-1) (N-1) включити?

machine-learning

— Джон Хортон
джерело

11

Якщо я правильно розумію, у вас є проблема класифікації двох класів, де позитивний клас (збіги) зустрічається рідко. Багато класифікаторів борються з таким класовим дисбалансом, і звичайна практика піддавати вибірку мажоритарному класу з метою отримання кращої ефективності, тому відповідь на перше питання - «так». Однак якщо ви будете занадто сильно піддіапробовано, ви отримаєте класифікатор, який надмірно прогнозує позитивний клас меншості, тож найкраще зробити це вибрати коефіцієнт підбірки для максимальної продуктивності, можливо, мінімізуючи крос помилка перевірки, коли дані випробувань не були відібрані під вибіркою, тому ви отримаєте хороші показники експлуатаційних показників.

Якщо у вас є імовірнісний класифікатор, який дає оцінку ймовірності членства в класі, ви можете піти на кращий результат і обробити результат, щоб компенсувати різницю між частотами класів у навчальному наборі та в роботі. Я підозрюю, що для деяких класифікаторів оптимальним підходом є оптимізація як співвідношення під вибірки, так і виправлення до виходу шляхом оптимізації помилки перехресної перевірки.

Замість під вибірки для деяких класифікаторів (наприклад, SVM) можна надати різну вагу позитивним та негативним зразкам. Я віддаю перевагу цьому підвідборі, оскільки це означає, що немає змін в результатах завдяки конкретній використовуваній підпробі. У випадках, коли це неможливо, використовуйте завантажувальний інструмент для створення класифікованого класифікатора, де для кожної ітерації використовується інший підвідбір з мажоритарного класу.

Ще одне, що я хотів би сказати, - це те, що зазвичай, коли є великий класовий дисбаланс, помилкові негативні помилки та помилкові позитивні помилки не є однаково поганими, і це гарна ідея вбудувати це в дизайн класифікатора (що може бути виконано підрозділом -моделювання або зважування моделей, що належать до кожного класу).

— Дікран Марсупіал
джерело

3

(+1), проте, я думаю, що потрібно розрізняти мету ранжування (міра: AUC) та розділення двох класів (міра: Точність). У першому випадку, враховуючи імовірнісний класифікатор, як Naive Bayes, дисбаланс відіграє меншу роль. Або варто турбуватися і в цьому випадку? Ще одне питання: що ви маєте на увазі під "післяобробним результатом"? Перетворення балів у фактичні ймовірності?

— steffen

@Steffen Моя інтуїція полягає в тому, що проблема неврівноваженості класу є меншою проблемою для ранжирування, але вона не піде повністю (я працюю над документом над цією проблемою, тож щось варто вирішити). Під обробкою я мав на увазі множення результатів на співвідношення частот оперативного та навчального класів, а потім повторну нормалізацію, так що ймовірність усіх можливих результатів дорівнює одиниці. Однак на практиці фактичний оптимальний коефіцієнт масштабування, ймовірно, буде дещо іншим - отже, оптимізуйте за допомогою XVAL (але все-таки повторно нормалізуйте).

— Дікран Марсупіал

1

Щодо (1). Потрібно тримати позитивні та негативні спостереження, якщо ви хочете змістовних результатів.
(2) Не існує більш розумного методу піддиагностики, ніж рівномірний розподіл, якщо у вас немає апріорних даних.

— Уго
джерело

Дякую Уго - погоджено, у даних тренувань обов'язково повинні бути як матчі, так і поза матчі. Питання полягає в тому, скільки потрібно (N-1) (N-1) невідповідностей. Для частини (2) я б напевно взяв вибірку з рівною вагою за всіма спостереженнями.

— Джон Хортон

Добре, якщо у вас немає даних про свої дані, немає розумного способу вибірки даних. Тож вам доведеться робити рівномірний відбір проб, і в цьому випадку, чим більше ви берете, тим краще. Однак ви можете оцінити помилку, введену вибіркою, але тут нам бракує інформації, щоб допомогти вам у цьому.

— Уго

Мені здається, що помилка буде залежати від типу використовуваного класифікатора. У будь-якому випадку ви завжди можете спробувати передбачити різну швидкість вибірки та встановити поріг, коли ви вважаєте, що введена помилка є задовільною.

— Уго