Автоматичне очищення даних

10

Поширена проблема ML - це низька якість даних: помилки у значеннях значень, неправильно класифіковані екземпляри тощо тощо.

Один із способів вирішення цієї проблеми - це вручну пройти дані та перевірити, але чи є інші методи? (Гадаю, що є!)

Які з них краще і чому?

data-cleaning

— andreister
джерело

Google Refine, можливо, варто переглянути.

— Мастеров Димитрій Васильович

6

Зменшення розмірності через щось на зразок PCA було б корисним для отримання уявлення про кількість вимірів, які є критичними для представлення ваших даних.

Щоб перевірити наявність помилково класифікованих екземплярів, ви можете зробити рудиментарну кластерну групу ваших даних, щоб отримати уявлення про те, наскільки добре ваші необроблені дані відповідають вашим запропонованим категоріям. Хоча це не автоматично, візуалізація на цьому етапі була б корисною, оскільки ваш зоровий мозок є потужним класифікатором як сам по собі.

Щодо даних, яких відсутня відверта інформація, статистика має численні методи вирішення такої ситуації, включаючи імпутацію, взяття даних із існуючого набору або іншого набору для заповнення прогалин.

— Джонска
джерело

3

Нанесення даних - це ручна перевірка.

— andreister

@andreister Я вважаю, що перевірка точки за електронною таблицею є ручною перевіркою, але добре, я бачу, що ви отримуєте.

— jonsca

5

Ви не можете дійсно зняти знаючу людину з циклу і очікувати розумних результатів. Це не означає, що людина має дивитись на кожен окремий предмет окремо, але в кінцевому підсумку потрібні деякі фактичні знання, щоб знати, чи резюме / графіки даних є розумними. (Наприклад: чи може змінна A бути від'ємною, чи може змінна B бути більшою за змінну A, чи є 4 або 5 варіантів для категоріальної змінної C?)

Після того, як ви поцікавились людськими поглядами на дані, ви, ймовірно, можете скласти ряд правил, які ви можете використовувати для автоматичного тестування даних. Проблема в тому, що можуть виникнути інші помилки, про які ви не думали. (Наприклад, помилка програмування в процесі збору даних, що дублює змінну A на змінну C.)

— Уейн
джерело

Чудова відповідь. Я хотів би лише додати, щоб переконатися, що синтаксис, який використовується для очищення змінних, зберігається в документації, з коментарями, якщо не описовими уривками про те, чому все було змінено. :)

— Мішель

1

Якщо ви знаєте, що ваші дані не дуже хороші, то завжди добре перевірити також і людей, що не впадають у рух. Більшу частину часу виникають аномалії.

Якщо у вас багато можливостей, зменшення розмірності є обов'язковим. PCA для цього досить ефективний.

Якщо у вас відсутні дані, ви можете використовувати імпутацію чи інтерполяцію, але якщо ваші потреби цього дозволяють, виграшним випадком є використання спільної фільтрації.

— фонПетрушев
джерело