Чи вибірка є актуальною в часи "великих даних"?

54

Або тим більше "буде"? Великі дані роблять статистику та відповідні знання ще важливішими, але, здається, недооцінюють теорію вибірки.

Я бачив цей галас навколо "Великих даних" і не можу не задатися питанням, що "чому" я б хотів проаналізувати все ? Хіба не було причини, щоб "Теорія вибірки" була розроблена / впроваджена / винайдена / виявлена? Я не можу аналізувати всю "сукупність" набору даних. Тільки тому, що ви можете це зробити, це не означає, що вам слід (Глупство - це привілей, але не варто зловживати ним :)

Отже, моє запитання таке: чи статистично важливим є аналіз всього набору даних? Найкраще, що ви могли б зробити, було б мінімізувати помилки, якщо б ви зробили вибірку. Але чи варто цього мінімізувати помилку? Чи справді «цінність інформації» вартує зусиль, витрат часу тощо, що стосується аналізу великих даних на масово паралельних комп'ютерах?

Навіть якщо проаналізувати всю сукупність, результат все одно буде здогадом з більшою ймовірністю бути правильним. Напевно, трохи вище, ніж вибірки (чи це було б набагато більше?) Чи може розуміння, отримане від аналізу кількості населення та аналізу вибірки, сильно відрізняється?

Або ми повинні сприймати це як "часи змінилися"? Вибірка як діяльність може стати менш важливою, враховуючи достатню обчислювальну потужність :)

Примітка. Я не намагаюся розпочати дебати, але шукаю відповідь, щоб зрозуміти, чому великі дані роблять те, що вони роблять (тобто аналізують все) і нехтують теорією вибірки (чи ні?)

sampling data-mining large-data

— Кандидат наук
джерело

1

Дивіться також: stats.stackexchange.com/q/22502/7828 - як зробити дійсні висновки з великих даних.

— Аноні-Мус

2

(+1 давно) Мені завжди подобається читати ваші глибокі запитання. Вони є справжнім багатством цього сайту.

— кардинал

1

@cardinal - щиро вдячний за ваш коментар. Значить багато що йде від вас.

— Кандидат наук

29

Одним словом, так . Я вважаю, що все ще існують чіткі ситуації, коли вибірка є доцільною, всередині та без "великих даних", але характер великих даних неодмінно змінить наш підхід до вибірки, і ми будемо використовувати більше наборів даних, які є майже повними уявленнями про базовий населення.

Щодо вибірки: залежно від обставин майже завжди буде зрозуміло, чи є вибірка відповідною справою. Відбір проб - це не сама по собі корисна діяльність; це саме те, що ми робимо, тому що нам потрібно здійснювати компроміси за рахунок впровадження збору даних. Ми намагаємося охарактеризувати популяції та потрібно вибрати відповідний метод для збору та аналізу даних про сукупність. Вибірка має сенс, коли гранична вартість методу збору даних або обробки даних висока. Намагатися досягти 100% населення - це не дуже корисне використання ресурсів у цьому випадку, тому що вам часто краще вирішувати такі речі, як упередження невідповіді, ніж робити невеликі поліпшення випадкової помилки вибірки.

Чим відрізняються великі дані? "Великі дані" стосуються багатьох тих самих питань, які у нас виникали протягом століть, але що "нового" полягає в тому, що збір даних відбувається за допомогою існуючого комп'ютерно опосередкованого процесу, тому гранична вартість збору даних по суті дорівнює нулю. Це різко зменшує нашу потребу у відборі проб.

Коли ми все ще будемо використовувати вибірку? Якщо ваша "велика" популяція - це правильна сукупність для вирішення проблеми, то ви будете використовувати вибірку лише в кількох випадках: необхідність запускати окремі експериментальні групи або якщо об'ємний обсяг даних занадто великий для збору та обробки (багато з нас зараз легко обробляють мільйони рядків даних, тому межа тут стає все далі і далі). Якщо здається, що я відкидаю ваше запитання, це, мабуть, тому, що я рідко стикався з ситуаціями, коли обсяг даних викликав занепокоєння на етапах збору чи обробки, хоча я знаю, що багато хто з них

Мені здається важкою ситуація, коли ваше "великі дані" населення не ідеально представляє цільове населення, тому компроміси - це більше яблук до апельсинів. Скажімо, ви плануєте регіональний транспорт, і Google запропонував вам надати доступ до своїх навігаційних журналів Android GPS, щоб допомогти вам. Хоча набір даних, без сумніву, буде цікавим для використання, населення, ймовірно, буде систематично упереджено щодо малозабезпечених, користувачів громадського транспорту та людей похилого віку. У такій ситуації традиційні щоденники подорожей, що надсилаються випадковою вибіркою домогосподарств, хоча і дорожчі та менші за кількістю, все-таки можуть бути найкращим методом збору даних. Але це не просто питання "вибірки проти великих даних", це "

— Джонатан
джерело

22

Незважаючи на те, що велика кількість великих даних виробляється мобільними пристроями тощо, але в них мало корисних даних. Якщо ви хочете передбачити схему подорожей у місті за допомогою чотирикутника, ви можете вимкнутись на порядок у розрахункових потоках. Гірше, ви не знатимете, чи завищуєте ви, чи занижуєте ці потоки. Ви можете отримати шалено точну картину міських маршрутів подорожей маніякальних чотирикутних користувачів, але, якщо всім не потрібно (1) підтримувати робочий смартфон, (2) постійно запускати додаток чотирикутник і (3) зареєструватися в в будь-якому місці, де вони перебувають довше 10 хвилин (тобто, отримайте електронний перепис; хай лібертаріани скаржаться на те, що Google і Facebook знають все про вас), ваші дані містять невідомі упередження, а ваші електронні Deweys продовжуватимуть перемагати реальне слово Труманс (натискання):

_{(джерело: whatisasurvey.info )}

Якщо що-небудь, я би сподівався, що цей фрагмент історії повториться, і деякі великі прогнози "пива + памперси", створені з Big Data, будуть перевернуті дослідниками, використовуючи більш жорсткі підходи до вибірки. Це дивно , що ймовірність на основі дослідження залишаються точними навіть незважаючи на зниження темпів реагування.

— СтасК
джерело

1

(+1) Але, чи не був би стереотипний чотирикутний користувач протипоказанням параноїку . ;-)

— кардинал

1

Так ... певно, поганий термін. Дозвольте мені змінити це на маніякальне!

— StasK

2

Великі дані не є винуватцем. Саме так воно використовується. Коли вона має інформацію та застосовується належним чином, вона може бути дуже корисною. Обмін даними не все погано.

— Майкл Черник

Відмінний момент у використанні великих даних для інформації про дорожній рух. Оскільки такі компанії, як Google та Apple, вже роблять це, я вважаю, що це чудовий приклад того, коли великі дані можуть бути недостатніми для деяких аудиторій, і я намагався включити їх у свою відповідь.

— Джонатан

@Michael, ти прав, звичайно. Дані забруднені дешево, але способи вилучення корисної інформації з неї не знижуються - якщо що-небудь, вони йдуть вгору, тому що зараз потрібно просіяти більше даних, щоб отримати корисну інформацію.

— Стаск

21

Щоразу, коли застосовується техніка статистичного висновку, важливо бути зрозумілим щодо населення, щодо якого потрібно зробити висновки. Навіть якщо зібрані дані є дуже великими, вони все одно можуть стосуватися лише невеликої частини населення та можуть бути не дуже репрезентативними для цілого.

Припустимо, наприклад, що компанія, яка працює в певній галузі, зібрала "великі дані" про своїх клієнтів у певній країні. Якщо він хоче використовувати ці дані для висновку про своїх існуючих клієнтів у цій країні, вибірка може бути не дуже актуальною. Однак, якщо він хоче зробити висновки щодо більшої кількості населення - потенційних, а також існуючих клієнтів або клієнтів в іншій країні - тоді важливо враховувати, наскільки клієнти, про яких були зібрані дані, репрезентативні - можливо, щодо доходу, віку , стать, освіта тощо - для більшої кількості населення.

Також слід враховувати часовий вимір. Якщо метою є використання статистичних висновків для підтримки прогнозів, то слід розуміти, що чисельність населення поширюється на майбутнє. Якщо це так, то знову важливо розглянути, чи отриманий набір даних, як би великий не був, обставини, репрезентативні для тих, які можуть отримати в майбутньому.

— Адам Бейлі
джерело

Ласкаво просимо на наш сайт, Адам! (Якщо ви регулярно

— заїжджаєте

Чудовий пункт про необхідність врахування населення! Це один із найважливіших способів, коли люди можуть лінуватися про великі дані.

— Джонатан

"Навіть якщо зібрані дані є дуже великими, вони все ще можуть стосуватися лише невеликої частини населення, і не можуть бути дуже репрезентативними для всього". Я думаю, що саме це речення відповідає на багато питань.

— Беміпефе

13

З того, що я бачив з великого майна / ЗР, думка про вибірку та сукупність, з якої береться ваш зразок, так само важлива, як ніколи, але думка про ще менше.

Я "ревізую" клас Стенфордського ML, і до цього часу ми охоплювали регресійні та нейронні мережі з нарією згадки про висновки населення. Оскільки цей клас взяли 6 людей, варті цифри, зараз там дуже багато людей, які знають, як правильно підібрати дані, не маючи уявлення про ідею вибірки.

— Арі Б. Фрідман
джерело

3

Я повністю згоден. Спостерігаючи за поточним захопленням машинного навчання (здебільшого практикуючими та програмістами), великими даними та "наукою про дані", мені здається, що люди абсолютно смішно ігнорують вибірки, умовиводи, статистичні міркування, розуміння та сенс і жертвують його за сліпе застосування будь-якого алгоритм - це хіп. Ви навіть можете це бачити з питаннями та деякими відповідями тут на схрещеному підтвердженні. Тому я також вважаю, що це галас, який скоро застаріє або запозичить статистичну гносеологію і, таким чином, стане галуззю статистики (я все одно розглядаю це як таке).

— Момо

2

Якщо цей клас МЛ схожий на той, який я перевіряв деякий час тому, перед технікою нерівності Гоффддінга просунулося технічне припущення, що дані тренінгу є абсолютно випадковою вибіркою з населення. На жаль, це майже ніколи не буває, принаймні з мого досвіду, і в прикладах застосування методик протягом усього курсу. Це все ще не так, коли ви використовуєте "великі дані".

— Дуглас Заре

12

Так, вибірка є актуальною і залишатиметься актуальною. Підсумок полягає в тому, що точність статистичної оцінки, як правило, є функцією розміру вибірки, а не сукупності, до якої ми хочемо узагальнити. Таким чином, середня або середня частка, обчислена з вибірки 1000 респондентів, дасть оцінку певної точності (стосовно всієї сукупності, з якої ми взяли вибірку), незалежно від чисельності населення (або "наскільки велика" сума " великі дані ”є).

Сказавши, що: Є конкретні питання та проблеми, які є актуальними та їх слід зазначити:

Взяти хороший зразок вірогідності не завжди просто. Теоретично кожна людина в популяції, до якої ми хочемо узагальнити (про яку ми хочемо зробити висновки), повинна мати відому ймовірність бути обраним; в ідеалі ця ймовірність повинна бути однаковою (однакова ймовірність вибірки або EPSEM - однакова ймовірність відбору). Це важливе врахування, і слід чітко розуміти, як процес вибірки призначає ймовірність відбору членам групи, до якої хочеться узагальнити. Наприклад, чи можна одержати з каналів Twitter точні оцінки загальних настроїв серед населення загалом, включаючи людей, які не мають акаунтів у Twitter?
Великі дані можуть містити дуже складні деталі та інформацію; По-іншому, питання полягає не в вибірці, а в (мікро-) сегментації, витягуванні правильних деталей для невеликого набору спостережень, що мають значення. Тут завдання полягає не в вибірці, а в визначенні конкретної стратифікації та сегментації великих даних, що дає найбільш точну діючу інформацію, яку можна перетворити на цінні уявлення.
Ще одне загальне правило вимірювання думок полягає в тому, що помилки та упередження, що не відбирають вибірки, зазвичай набагато більше, ніж помилки вибірки та зміщення. Тільки тому, що ви обробляєте сто газильйонів записів респондентів, які висловлюють думку, не робить результати більш корисними, якщо у вас є лише дані про підпірку на 1000 осіб, зокрема, якщо запитання до відповідного опитування були не написані належним чином та викликали упередженість.
Іноді потрібен вибірковий вибір: Наприклад, якби було побудувати модель прогнозування з усіх даних, як би це підтвердити? Як можна порівняти точність різних моделей? Коли є "великі дані" (дуже великі сховища даних), тоді можна створити кілька моделей і сценарії моделювання для різних зразків, а також перевірити їх (спробувати) в інших незалежних зразках. Якби створити одну модель для всіх даних - як би її підтвердити?

Ви можете переглянути нашу "Революцію великих даних" тут.

— Кіра Мацдорф
джерело

1

Ласкаво просимо на наш сайт, Кіра!

— whuber

3

Багато методів великих даних фактично розроблені навколо вибірки.

Питання повинно бути докладніше у рядку:

Чи не слід також використовувати систематизовану вибірку з великими даними?

Дуже багато матеріалів із "великими даними" все ще досить свіжі, а іноді і наївні. Наприклад, K-засоби можна тривіально паралелізувати, і таким чином працює для "великих даних" (я не збираюся говорити про результати, вони не дуже значущі; і, мабуть, не дуже відрізняються від отриманих на вибірці!). Наскільки я знаю, це те, що робить k-означає реалізацію в Mahout.

Однак дослідження виходять за рамки наївної паралелізації (що може все-таки вимагати великої кількості ітерацій) і намагаються зробити K-засоби у фіксованій кількості ітерацій. Приклад для цього:

Швидке кластеризація за допомогою MapReduce
Ene, A. та Im, S. та Moseley, B.
Матеріали 17-ї міжнародної конференції ACM SIGKDD про відкриття знань та видобуток даних, 2011

І здогадайтесь, їхній підхід ґрунтується на вибірці .

Наступний приклад: Рішення лісів . Це по суті: для декількох зразків із набору даних побудуйте кожне дерево рішень. Можна знову тривіально паралельно: кожен зразок класти на окрему машину. І знову ж таки, це підхід на основі вибірки.

Тож вибірки є одним із ключових компонентів підходу до великих даних!

І в цьому немає нічого поганого.

— Аноні-Мус
джерело

2

Перехресне підтвердження - це специфічний приклад під вибірки, що є досить важливим для ML / big data. Загалом, великі дані все ще зазвичай є вибіркою населення, як згадували інші люди.

Але я думаю, що ОП може конкретно стосуватися вибірки, оскільки це стосується контрольованих експериментів, а не даних спостережень. Зазвичай великі дані розглядаються як останні, але для мене, принаймні, є винятки. Я б вважав рандомізовані випробування, тестування A / B та багатозброєні бандити в налаштуваннях електронної комерції та соціальних мереж як приклади "вибірки в налаштуваннях великих даних".

— Дейв
джерело

1

У областях, де Big Data набуває все більшої популярності: пошук, реклама, рекомендаційні системи, такі як Amazon, Netflix, є дуже великий стимул для вивчення всього набору даних.

Метою цих систем є пристосування рекомендацій / пропозицій до кожного окремого члена населення. Також кількість атрибутів, що вивчаються, величезна. Середня система веб-аналітики може вимірювати частоту кліків, "термічне відстеження" "гарячих областей" на сторінці, соціальну взаємодію тощо і зважувати їх на великому наборі заздалегідь визначених цілей.

Що ще важливіше, більшість місць, де великі дані зараз є всюдисущими, - це "онлайн" потоки даних, тобто дані постійно додаються / оновлюються. Розробка схеми вибірки, яка охоплює всі ці ознаки без притаманної упередженості та все ж дає перспективні результати (читайте кращі межі), є проблемою.

Відбір проб все ще залишається дуже актуальним для обстежень, медичних випробувань, тестування а / б, забезпечення якості.

Коротше кажучи, вибірки є дуже корисними, коли популяція, яку слід вивчати, дуже велика, і вас цікавлять макроскопічні властивості популяції. Для використання мікроскопічних властивостей системи необхідна 100% перевірка (Big Data)

Сподіваюся, це допомагає :)

— розгубленість
джерело

Тож чи є ваше бажання, що вони не хочуть мати можливість узагальнювати дані, які є у них, до тих, яких вони ще не мають? Або що вони вважають, що їх вибірка настільки велика, що їм не потрібно хвилюватися з цих питань? Або що основні параметри змінюватимуться з часом, тому це не має значення, якщо вони продовжують оновлюватись, коли нові потоки даних надходять у них?

— gung - Відновіть Моніку

@gung проблема полягає не в розмірі вибірки, а в проблемі створення об'єктивного зразка для набору даних, який має величезну кількість атрибутів. А узагальнення, як правило, здійснюється за алгоритмами машинного навчання, підготовлених на частині набору даних. Потоки потоку даних, що постійно надходять, робить вибірку вторинною, оскільки пакетні оновлення можна використовувати для зміни параметрів.

— ковзання