Або тим більше "буде"? Великі дані роблять статистику та відповідні знання ще важливішими, але, здається, недооцінюють теорію вибірки.
Я бачив цей галас навколо "Великих даних" і не можу не задатися питанням, що "чому" я б хотів проаналізувати все ? Хіба не було причини, щоб "Теорія вибірки" була розроблена / впроваджена / винайдена / виявлена? Я не можу аналізувати всю "сукупність" набору даних. Тільки тому, що ви можете це зробити, це не означає, що вам слід (Глупство - це привілей, але не варто зловживати ним :)
Отже, моє запитання таке: чи статистично важливим є аналіз всього набору даних? Найкраще, що ви могли б зробити, було б мінімізувати помилки, якщо б ви зробили вибірку. Але чи варто цього мінімізувати помилку? Чи справді «цінність інформації» вартує зусиль, витрат часу тощо, що стосується аналізу великих даних на масово паралельних комп'ютерах?
Навіть якщо проаналізувати всю сукупність, результат все одно буде здогадом з більшою ймовірністю бути правильним. Напевно, трохи вище, ніж вибірки (чи це було б набагато більше?) Чи може розуміння, отримане від аналізу кількості населення та аналізу вибірки, сильно відрізняється?
Або ми повинні сприймати це як "часи змінилися"? Вибірка як діяльність може стати менш важливою, враховуючи достатню обчислювальну потужність :)
Примітка. Я не намагаюся розпочати дебати, але шукаю відповідь, щоб зрозуміти, чому великі дані роблять те, що вони роблять (тобто аналізують все) і нехтують теорією вибірки (чи ні?)