Очевидно, що так.
Аналіз даних може призвести до багатьох моментів, які зашкодять вашій прогнозній моделі:
Неповні дані
Припускаючи, що ми говоримо про кількісні дані, вам доведеться вирішити, чи хочете ви проігнорувати стовпець (якщо бракує занадто багато даних) або розібратися, яке буде ваше значення "за замовчуванням" (Середнє, Режим, і т.д.). Ви не можете цього зробити, попередньо не вивчивши свої дані.
Ненормальні дані
Скажімо, у вас є дані, які досить сильно корелюються, але є 2% ваших даних, що далеко не відповідає цій кореляції. Ви можете повністю видалити ці дані, щоб допомогти вашій прогнозованій моделі
Видаліть стовпці із занадто великою кореляцією
Добре, це трохи суперечить моєму попередньому моменту, але англійська мова не є моєю основною мовою, тому я сподіваюся, ви зрозумієте.
Я візьму тупий приклад, скажу, що ви аналізуєте набір даних про стадіон футболу і у вас є Width, Length, Area
параметри. Що ж, ми можемо легко уявити, що ці три параметри будуть сильно співвіднесені. Занадто велика кореляція між вашим стовпцем призводить модель прогнозування в неправильному напрямку. Ви можете вирішити очистити один або кілька параметрів.
Знайдіть нові функції
Я візьму приклад невеликого "Титанічного кагала" "Конкуренція" . Дивлячись на імена людей, ви можете зрозуміти, що ви можете витягти функцію, яка є Title
людиною. Ця функція виявляється досить важливою, коли мова йде про моделювання, але ви б пропустили її, якби не спершу проаналізували свої дані.
Ви можете вирішити поширювати безперервні дані, оскільки вони вважають себе більш доцільним або перетворити безперервну функцію в категоричну.
Знайдіть, який алгоритм використовувати
Я не можу малювати сюжети зараз, але давайте зробимо це простим прикладом.
Уявіть, що у вас є маленька модель з одним стовпчиком функції та одним двійковим (лише 0 або 1) стовпцем "результат". Ви хочете створити модель прогнозованої класифікації для цього набору даних.
Якщо ви, як приклад, ще раз побудували його (так, проаналізуйте свої дані), ви можете зрозуміти, що сюжет утворює ідеальне коло навколо вашого значення 1. У такому випадку, якщо було б досить очевидно, що ви можете використовувати поліноміальний класифікатор, щоб мати чудову модель замість того, щоб стрибати прямо до DNN. (Очевидно, враховуючи, що у моєму прикладі є лише два стовпчики, це не є чудовим прикладом, але ви розумієте)
В цілому, ви не можете очікувати, що прогнозована модель буде ефективною, якщо ви спочатку не подивитеся на дані.
[descriptive-statistics]
тег і остаточне запитання - чи важлива описова статистика. У цьому контексті ви маєте на увазі обчислення різної описової статистики лише тоді, коли згадуєте EDA, або запитуєте про описову статистику та EDA? Я запитую, тому що багато людей (включаючи мене) вважають, що EDA є більш ніж просто описовою статистикою.