Я багато разів аналізував набір даних, на якому я не міг зробити жодної класифікації. Щоб побачити, чи можу я отримати класифікатор, я зазвичай використовую такі кроки:
- Створіть графіки графіки мітки проти числових значень.
- Зменшіть розмірність до 2 або 3, щоб побачити, чи розділяються класи, також іноді пробуйте LDA.
- Намагайтеся налаштувати SVM та випадкові ліси та перегляньте важливість функції, щоб дізнатись, чи мають функції такі сенси чи ні.
- Спробуйте змінити баланс класів та методів, таких як недобір вибірки та перевибірки, щоб перевірити, чи може виникнути неврівноваженість класів.
Є багато інших підходів, які я можу придумати, але не спробував. Іноді я знаю, що ці функції непогані і зовсім не пов'язані з етикеткою, яку ми намагаємось передбачити. Потім я використовую цю ділову інтуїцію, щоб закінчити вправу, роблячи висновок, що нам потрібні кращі функції або зовсім інші ярлики.
Моє запитання - як повідомляє Data Scientist, що класифікацію неможливо зробити за цими ознаками. Чи є який-небудь статистичний спосіб повідомити про це або встановити дані в різні алгоритми спочатку, і перегляд метрики перевірки є найкращим варіантом?