Як зробити дійсні висновки з "великих даних"?


40

"Великі дані" є скрізь у ЗМІ. Всі кажуть, що "великі дані" - це найбільша річ у 2012 році, наприклад, опитування KDNuggets на гарячі теми 2012 року . Однак у мене тут є глибокі занепокоєння. Маючи великі дані, всі, здається, щасливі лише отримати щось . Але чи не ми порушуємо всі класичні статистичні принципи, такі як тестування гіпотез та репрезентативний вибірки?

Поки ми робимо лише прогнози щодо одного і того ж набору даних, це повинно бути добре. Тож якщо я використовую дані Twitter, щоб передбачити поведінку користувачів Twitter, це, мабуть, добре. Однак, використовуючи дані Twitter для прогнозування, наприклад, виборів, повністю нехтує тим фактом, що користувачі Twitter не є репрезентативною вибіркою для всього населення. Плюс до цього, більшість методів насправді не зможуть розмежувати справжній настрій «низовий» та похід. І щебет насичений кампаніями. Отже, аналізуючи Twitter, ви швидко закінчуєте просто вимірювати кампанію та ботів. (Див. Наприклад "Yahoo прогнозує політичних переможців Америки"яка сповнена базування опитування та "аналізу настроїв набагато краще". Вони прогнозували, що "Ромні має понад 90 відсотків ймовірність виграти номінацію та виграти первинну Південну Кароліну" (він мав 28%, тоді як у Гінгріха 40% цього основного).

Чи знаєте ви, що інші такі великі дані не вдається ? Приблизно я пам’ятаю, що один вчений передбачив, що ти не зможеш підтримувати більше 150 дружніх стосунків. Він фактично виявив лише обмеження обмеження у друзях ...

Що стосується даних Twitter, або насправді будь-яких "великих даних", зібраних з Інтернету, я вважаю, що часто люди навіть вводять додаткові упередження у спосіб збирання своїх даних. Мало хто матиме весь Twitter. Вони матимуть певний підмножина, яку вони пасували, і це лише чергове зміщення у наборі даних.

Розбиття даних на тестовий набір або для перехресної перевірки, ймовірно, не дуже допоможе. Інший набір матиме ті ж упередження. А для великих даних мені потрібно так сильно «стиснути» свою інформацію, що я навряд чи перевтомлююся.

Нещодавно я почув цей жарт, коли вчений з великими даними виявив, що в світі існує приблизно 6 статей ... і я можу це просто так уявити, щоб це сталося ... "Чоловік, Жінка, Орк, Пухнастий, Так і Ні".

Отже, якими методами ми повинні повернути деяку статистичну достовірність в аналіз, зокрема, намагаючись передбачити щось поза межами набору даних "великих даних"?

Відповіді:


31

Ваші побоювання є обґрунтованими та сприйнятливими. Yahoo та, ймовірно, кілька інших компаній роблять рандомізовані експерименти над користувачами та роблять це добре. Але дані спостереження наповнені труднощами. Поширена помилкова думка, що проблеми зменшуються зі збільшенням розміру вибірки. Це справедливо для дисперсії, але зміщення залишається постійним у міру збільшення n. Коли ухил великий, дуже маленька справді випадкова вибірка або рандомізоване дослідження може бути більш цінною, ніж 100 000 000 спостережень.


8
Великі дані, мабуть, є однією з областей, де розкладання зміщення дисперсії не є корисним - якість даних та управління даними важливіші. Це тому, що ми не можемо сподіватися знати кожну точку даних або навіть особливі випадки - їх занадто багато
ймовірністьлогічний

24

Існує цілий ряд методів експериментального проектування та аналізу, які можуть допомогти вам зменшити упередженість, але це знову ж таки зводиться до одного і того ж: треба знати, що робити. Аналіз великих даних має ту саму проблему, що і будь-який інший аналіз даних; він страждає від відсутності гіпотез.

Наочний приклад - множинна регресія з ступінчастим змінним вибором. Дуже хороший, один сказав, але з 100 змінними Обмірювані статистичні закони диктують , що деякі з них будуть показувати суттєве відношення при оцінці, дивлячись чи відповідний коефіцієнт істотно відрізняється від нуля. Отже, чим більше змінних у вашому наборі даних, тим більше шансів знайти дві, які показують певне (безглузде) відношення. І чим більший ваш набір даних, тим більше шансів для безглуздих моделей через, наприклад, невеликий заплутаний ефект. Якщо ви протестуєте багато моделей (і навіть усього 10 змінних, які можуть бути цілою безліччю моделей), ви, ймовірно, знайдете хоча б одну істотну. Це щось означає? Немає.

Що тоді робити? Використовуй свій розум:

  • сформулюйте гіпотезу перед тим, як зібрати дані та перевірити цю гіпотезу. Це єдиний спосіб переконатися, що ваша статистика насправді розповідає історію.
  • Використовуйте ваші коваріати для стратифікації відбору проб перед тим, як робити деякі тести. Дурний приклад: Якщо у вашому наборі даних є 1000 чоловіків і 100 жінок, випадковим чином виберіть 50 для кожного, якщо ви хочете поговорити про середню кількість населення. Це насправді дещо корисні великі дані: у вас є більш ніж достатньо для вибірки.
  • Опишіть групу тестів ретельно, щоб було зрозуміло, для якої групи формулюються ваші висновки.
  • Якщо ви використовуєте великий набір даних для дослідницьких цілей, протестуйте гіпотези, які ви виходили під час цього дослідження, на новому та іншому наборі даних, а не лише на підмножині того, що ви зібрали. І ще раз протестуйте їх, використовуючи всі необхідні заходи безпеки.

Ці речі всі очевидні та добре відомі. Хек, вже в 1984 р. Розенбаум і Рубін проілюстрували, як використовувати показники схильності для зменшення упередженості в спостережних дослідженнях, і саме це більшість великих наборів даних: дані спостереження. В останніх роботах Фенг та ін . Також застосовується відстань махаланобіса. А насправді один з моїх статистичних героїв Кохран написав рецензію на цю проблему ще в 1973 році! А що з Рубіном, який вже в 1979 р. Представив багатоваріантний вибірковий вибір і виправлення регресії, коли старі публікації серйозно занижуються і занадто часто ігноруються, звичайно в такій галузі, як статистика.

Усі ці методи мають плюси і мінуси, і треба розуміти, що зменшення упередженості не те саме, що усунення упередженості. Але якщо вам відомо:

  • що ви хочете перевірити, і
  • як ти це робиш

Великі дані не є приводом для отримання хибних результатів.


Відредаговано після (корегуючого) зауваження @DW, який зазначив, що я використовував термін «надмірно» у неправильному контексті.


12
"чим більший ваш набір даних, тим більше шансів на безглузде переозброєння" - Насправді, це назад. Чим більший набір можливих моделей, тим більший шанс надягати (всі інші рівні). Чим більший набір даних, тим менша ймовірність перевиконання (усі інші рівні).
DW

@DW Як це так? Насправді, якщо в моделюванні є абсолютна незалежність, існує велика кількість шансів на важливу модель з малим і великим набором даних (просте моделювання це показує). На жаль, мені ще належить зустріти набір даних, де незалежність ідеальна. У той момент, коли у вас є, наприклад, дуже невеликий заплутаний ефект, великі набори даних швидше дають безглузді значні результати, ніж невеликі набори даних.
Йоріс Майс

Приємна відповідь - ваш коментар щодо пошуку значних ефектів дає хороше обґрунтування методів усадки щодо методів вибору моделі «вхід чи вихід».
ймовірністьілогічний

10
@DW робить заяву про перевиконання, і здається правильним - тим більше, що чим більший набір даних, тим більше шансів на приниження перехресної перевірки на підмножини даних. Joris Meys робить заяву про статистичну значимість. Це теж правильно. Але у великих наборах даних статистичне значення є суперечливим - важливий саме розмір ефекту, оскільки майже все є "статистично значущим".
zbicyclist

1
@zbicyclist Дуже правильне спостереження. Зізнаюся, я неправильно інтерпретував DW і вжив термін «підганяння» в неправильному контексті. Я стою виправлений.
Joris Meys
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.