У статистиці, як у Data Mining, ви починаєте з даних та мети. У статистиці велика увага приділяється висновкам, тобто відповіді на запитання рівня населення за допомогою вибірки. При обробці даних основна увага приділяється прогнозуванню: ви створюєте модель зі свого зразка (навчальні дані), щоб передбачити дані тесту.
Процес статистики - це:
Вивчіть дані за допомогою підсумків та графіків - залежно від того, як статистик керується даними, деякі будуть більш відкритими, дивлячись на дані з усіх ракурсів, а інші (особливо соціологи) будуть дивитись на дані через об'єктив питання, що цікавить (наприклад, сюжет особливо змінних, що цікавлять, а не інших)
Виберіть відповідне сімейство статистичних моделей (наприклад, лінійна регресія для безперервної Y, логістична регресія для двійкової Y або Пуассона для даних підрахунку) та виконайте вибір моделі
Оцініть кінцеву модель
Тестування припущень моделей, щоб переконатися, що вони доцільно виконані (відмінні від тестування на точність прогнозування при обробці даних)
Використовуйте модель для висновку - це головний крок, який відрізняється від пошуку даних. Слова "р-значення" надходить сюди ...
Погляньте на будь-який підручник з основними статистичними даними, і ви знайдете розділ «Дослідницький аналіз даних» з подальшими деякими розподілами (які допоможуть обрати розумні моделі наближення), потім висновки (довірчі інтервали та тести гіпотез) та регресійні моделі.
Я описав вам класичний статистичний процес. Однак у мене з цим багато питань. Орієнтація на висновок повністю домінувала в полях, тоді як передбачення (що є надзвичайно важливим і корисним) майже нехтується. Більше того, якщо ви подивитесь, як соціальні вчені використовують статистику для висновку, ви побачите, що вони використовують її зовсім по-іншому! Більше про це можна дізнатися тут