"Великі дані" є скрізь у ЗМІ. Всі кажуть, що "великі дані" - це найбільша річ у 2012 році, наприклад, опитування KDNuggets на гарячі теми 2012 року . Однак у мене тут є глибокі занепокоєння. Маючи великі дані, всі, здається, щасливі лише отримати щось . Але чи не ми порушуємо всі класичні статистичні принципи, такі як тестування гіпотез та репрезентативний вибірки?
Поки ми робимо лише прогнози щодо одного і того ж набору даних, це повинно бути добре. Тож якщо я використовую дані Twitter, щоб передбачити поведінку користувачів Twitter, це, мабуть, добре. Однак, використовуючи дані Twitter для прогнозування, наприклад, виборів, повністю нехтує тим фактом, що користувачі Twitter не є репрезентативною вибіркою для всього населення. Плюс до цього, більшість методів насправді не зможуть розмежувати справжній настрій «низовий» та похід. І щебет насичений кампаніями. Отже, аналізуючи Twitter, ви швидко закінчуєте просто вимірювати кампанію та ботів. (Див. Наприклад "Yahoo прогнозує політичних переможців Америки"яка сповнена базування опитування та "аналізу настроїв набагато краще". Вони прогнозували, що "Ромні має понад 90 відсотків ймовірність виграти номінацію та виграти первинну Південну Кароліну" (він мав 28%, тоді як у Гінгріха 40% цього основного).
Чи знаєте ви, що інші такі великі дані не вдається ? Приблизно я пам’ятаю, що один вчений передбачив, що ти не зможеш підтримувати більше 150 дружніх стосунків. Він фактично виявив лише обмеження обмеження у друзях ...
Що стосується даних Twitter, або насправді будь-яких "великих даних", зібраних з Інтернету, я вважаю, що часто люди навіть вводять додаткові упередження у спосіб збирання своїх даних. Мало хто матиме весь Twitter. Вони матимуть певний підмножина, яку вони пасували, і це лише чергове зміщення у наборі даних.
Розбиття даних на тестовий набір або для перехресної перевірки, ймовірно, не дуже допоможе. Інший набір матиме ті ж упередження. А для великих даних мені потрібно так сильно «стиснути» свою інформацію, що я навряд чи перевтомлююся.
Нещодавно я почув цей жарт, коли вчений з великими даними виявив, що в світі існує приблизно 6 статей ... і я можу це просто так уявити, щоб це сталося ... "Чоловік, Жінка, Орк, Пухнастий, Так і Ні".
Отже, якими методами ми повинні повернути деяку статистичну достовірність в аналіз, зокрема, намагаючись передбачити щось поза межами набору даних "великих даних"?