У чому різниця між обробкою даних та статистичним аналізом?


19

У чому різниця між обробкою даних та статистичним аналізом?

З деякого походження, моя статистична освіта була, я думаю, досить традиційною. Поставлено конкретне запитання, розроблено дослідження, дані збираються та аналізуються, щоб дати деяке розуміння цього питання. Як результат, я завжди скептично ставився до того, що вважав "драгуванням даних", тобто шукав зразки у великому наборі даних та використовував ці зразки для отримання висновків. Я схильний асоціювати останнє з обробкою даних і завжди вважав це дещо безпринципним (поряд з такими речами, як алгоритмічні процедури вибору змінних).

Тим не менш, існує велика і зростаюча література з пошуку даних. Часто я бачу, що ця мітка посилається на конкретні прийоми, такі як кластеризація, класифікація на основі дерев тощо. Однак, принаймні, з моєї точки зору, ці методи можуть бути "відкладені" на наборі даних або використані структуровано для адреси адреси питання. Я б назвав перший аналіз даних і другий статистичний аналіз.

Я працюю в академічній адміністрації, і мене попросили зробити "пошук даних", щоб визначити проблеми та можливості. Відповідно до мого досвіду, моїми першими запитаннями були: чого ви хочете навчитися і які речі, на вашу думку, сприяють проблемі? З їхньої відповіді було зрозуміло, що я та людина, яка задала це питання, мали різні ідеї щодо природи та цінності обміну даними.



3
Якщо це дублікат, я можу здогадатися, що видобуток даних та машинне навчання - це одне і те ж!
Джордж Донтас

@George Dontas Так, я прийшов сюди за посиланням у коментарях, якщо інше питання, сподіваючись побачити, було різницею між ML та обробкою даних.
DJG

Відповіді:


20

Джером Фрідман заздалегідь написав статтю: Робота з даними та статистика: який зв'язок? , що, думаю, вам буде цікаво.

Обмін даними був значною мірою комерційним питанням і зумовлений потребами бізнесу (у поєднанні з "потребою" у постачальниках продавати програмне забезпечення та апаратні системи бізнесу). Одне, що Фрідмен зазначив, - це те, що всі "функції", що перебувають під наглядом, виникають поза статистикою - від алгоритмів та методів, таких як нейронні мережі, до аналізу даних, керованих графічним інтерфейсом, - і жодне з традиційних статистичних пропозицій не здавалося частиною будь-якої з цих систем (регресія, тестування гіпотез тощо). "Наша основна методологія значною мірою була проігнорована". Він також продавався як користувач, керований відповідно до того, що ви відзначили: ось мої дані, ось моє "бізнес-питання", дайте мені відповідь.

Я думаю, що Фрідман намагався спровокувати. Він не вважав, що обмін даними має серйозні інтелектуальні основи, що стосуються методології, але що це зміниться, і статистики повинні грати роль, а не ігнорувати її.

Моє власне враження, що це сталося більш-менш. Лінії розмиті. Зараз статистики публікують у журналах обміну даними. Ці майнери даних сьогодні, здається, мають якусь статистичну підготовку. Незважаючи на те, що пакети обміну даними все ще не обробляють узагальнені лінійні моделі, серед аналітиків добре відома логістична регресія - крім кластеризації та нейронних мереж. Оптимальний експериментальний дизайн може не входити до ядра обміну даними, але програмне забезпечення може бути використане для викиду p-значень. Прогрес!


1
Це чудовий документ і відповідає моєму погляду на те, що таке обробка даних та чим вона відрізняється від статистики. Улов, це з 1997 року! Зверніть увагу на папку або вашу рекомендацію, але ступінь, з яким я не відставав від пошуку даних. Це здається, що мені потрібно взяти поточну книгу з пошуку даних, щоб наздогнати.
Бретт

Хе, я наробив дату навмисно, бо думав, що буде забавно помітити часовий проміжок. :) Книги Майкла Беррі та Гордона Ліноффа досить хороші та сподобаються статистикам (для ширшого викриття, а не для вивчення статистичних методик). Якщо ви хочете відчути нечіткий, "корпоративний" бік цього поля, перегляд однієї з книг про такий постачальницький продукт, як SAS's Enterprise Miner або Clementine SPSS, може допомогти. Я б не рекомендував купувати їх, якщо ви не збираєтесь працювати з самим продуктом.
АРС

10

Різниця між статистикою та обробкою даних значною мірою є історичною, оскільки вони походять з різних традицій: статистики та інформатики. Вимірювання даних зростало паралельно поза роботою в галузі штучного інтелекту та статистики.

Розділ 1.4 від Witten & Frank узагальнює мою точку зору, тому я буду цитувати її детально:

Яка різниця між машинним навчанням та статистикою? Циніки, криво дивлячись на вибух комерційного інтересу (та ажіотажу) у цій галузі, прирівнюють пошук даних до статистики плюс маркетингу. По правді кажучи, вам не слід шукати межу між машинним навчанням і статистикою, оскільки існує суцільність - і багатовимірність при цьому - методів аналізу даних. Одні випливають з навичок, що викладаються на стандартних курсах статистики, а інші більш тісно пов'язані з типом машинного навчання, що виникло внаслідок інформатики. Історично обидві сторони мали досить різні традиції. Якщо змусити вказати на одну різницю акцентів, можливо, статистика більше стосується тестування гіпотез,

У минулому паралельно розвивалися дуже схожі методи в машинному навчанні та статистиці ...

Але зараз дві перспективи зійшлися.

NB1 IMO, обмін даними та машинне навчання - дуже тісно пов'язані терміни. В одному сенсі методи машинного навчання використовуються при обробці даних. Я регулярно розглядаю ці терміни як взаємозамінні, і наскільки вони різні, вони зазвичай йдуть разом. Я б запропонував переглянути документ "Дві культури" , а також інші теми мого початкового запитання.

NB2 Термін "обробка даних" може мати негативну конотацію, коли він використовується в розмовному розумінні, якщо деякий алгоритм втрачає дані без будь-якого концептуального розуміння. Сенс полягає в тому, що передача даних призведе до хибних результатів і надмірної підгонки. Зазвичай я уникаю використання цього терміна, коли в результаті спілкування з неекспертами, а натомість використовую машинне навчання або статистичне навчання як синонім.


Про NB2 - Я думаю, ви абсолютно праві, що стосується конотації передачі даних, і я не зробив зв'язку з машинним навчанням. Моя підготовка завжди наголошувала на проблемах надмірної пристосованості, хибності та використання шансів на випадковість, і я таким чином скептично ставився до ДМ - і все ще є, можливо, поки хтось насправді не скаже мені, що вони роблять, і ЯК. Спасибі.
Бретт

1
Мій єдиний каламбур на відмінність ML / DM полягав би в тому, що я думаю, що DM є ширшим. Наприклад, OLAP та пов'язані з ним інструменти включають технології видобутку. Але вони походять із бази даних інформатики, а не машинного навчання. Роль комерції у формуванні «сенсу» видобутку даних важко ігнорувати - вона привносить елементи управління науками, дослідження операцій, машинного навчання та статистики, якщо потрібно. Це також створює враження чогось надуманого, але це зазвичай проблема пуристів, а не практикуючих.
АРС

@ars: Я згоден. Я намагався сказати, що трохи кажучи: "Технології машинного навчання використовуються при обробці даних" (тобто майнінг даних - це супернабір). Ваша думка щодо комерційних додатків також помітна. Хоча хтось у комерційній програмі, що зараз коментується, може ставитися до своєї роботи як до чогось іншого (наприклад, "наука про дані").
Шейн

Правильно, я повинен був сказати, що намагаюся усунути розбіжності, а не насправді посперечатися з тим, що ви написали. Вибачення за помилку. Хороший момент щодо зміни часу та термінів, таких як прийняття «науки про дані». Чи не одна з книг Гельмана починається з чогось типу "статистика - це наука даних"? Тож "вони" крадуть у статистиків. Знову. :)
АРС

8

Обмін даними класифікується як описовий або прогнозований. Описовий пошук даних - це пошук масивних наборів даних та виявлення розташування несподіваних структур або взаємозв'язків, закономірностей, тенденцій, кластерів та переживань даних. З іншого боку, прогнозування полягає у створенні моделей і процедур для регресії, класифікації, розпізнавання шаблонів або завдань машинного навчання та оцінки точності прогнозування цих моделей та процедур при застосуванні до нових даних.

Механізм, який використовується для пошуку шаблонів або структури у високомірних даних, може бути ручним або автоматизованим; для пошуку може знадобитися інтерактивний запит на систему управління базами даних, або це може спричинити використання програм візуалізації для виявлення аномалій у даних. У термінах машинного навчання описовий обмін даними називається непідвладним навчанням, тоді як прогнозний обмін даними називається наглядовим навчанням.

Більшість методів, що застосовуються при обробці даних, пов'язані з методами, розробленими в статистиці та машинному навчанні. Найважливішим з цих методів є загальні теми регресії, класифікації, кластеризації та візуалізації. Через величезні розміри наборів даних багато застосувань видобутку даних зосереджуються на методах зменшення розмірності (наприклад, змінному підборі) та ситуаціях, коли підозрювані у високовимірних даних лежать на низькомірних гіперпланах. Нещодавно увага була спрямована на методи ідентифікації об'ємних даних, що лежать на нелінійних поверхнях чи колекторах.

Існують також ситуації при обробці даних, коли статистичний висновок - у його класичному розумінні - або не має ніякого значення, або має сумнівну силу: перший виникає, коли ми маємо всю сукупність шукати відповіді, а останній виникає, коли набір даних є Вибірка «зручності», а не випадкова вибірка, взята з великої кількості населення. Коли дані збираються через час (наприклад, роздрібні операції, операції на фондовому ринку, записи пацієнтів, облік погоди), вибірка також не може мати сенсу; впорядкованість за часом спостережень має вирішальне значення для розуміння явища, що генерує дані, а розгляд спостережень як незалежних, коли вони можуть бути сильно корельованими, дасть необ’єктивні результати.

Основними компонентами обміну даними є - крім статистичної теорії та методів - обчислювальна та обчислювальна ефективність, автоматична обробка даних, динамічні та інтерактивні методи візуалізації даних та розробка алгоритмів.

Одне з найважливіших питань в обробці даних - обчислювальна проблема масштабованості . Алгоритми, розроблені для обчислення стандартних дослідницьких та підтверджуючих статистичних методів, були розроблені для того, щоб бути швидкими та обчислювально ефективними при застосуванні до малих та середніх наборів даних; все ж, було показано, що більшість із цих алгоритмів не вирішують складність обробки величезних наборів даних. У міру зростання наборів даних багато існуючих алгоритмів демонструють тенденцію до різкого сповільнення (або навіть приборкання до зупинки).


8

Обмін даними - це статистика з деякими незначними відмінностями. Ви можете думати про це як про ребрендинг статистики, тому що статистики начебто дивні.

Він часто асоціюється з обчислювальною статистикою, тобто лише з речами, які ви можете зробити з комп'ютером.

Майнери даних вкрали значну частку багатоваріантної статистики і назвали її власною. Перевірте зміст будь-якої багатоваріантної книги 1990-х років і порівняйте її з новою книгою вилучення даних. Дуже схожий.

Статистика пов'язана з тестуванням гіпотез та побудовою моделей, тоді як обробка даних більше пов'язана з прогнозуванням та класифікацією, незалежно від того, чи є зрозуміла модель.


1
Що таке дублікат? Я не бачу нічого очевидного.
Роб Хайндман

1
Досить схожий на цей я подумав: stats.stackexchange.com/questions/6/…
Ніл

1
добре. Я шукав видобуток даних, а не машинне навчання. Будь ласка, проголосуйте, щоб закрити, якщо ви вважаєте, що це дублікат.
Роб Хайндман

Хм, значить, Data Mining == Машинне навчання?
АРС

1
1) Я не бачу розрізнення статистичних даних. Статистикам це не так багато, що не потребує комп’ютера. Я думаю, ви маєте на увазі обчислювально інтенсивні процедури, такі як ітераційні рішення тощо? Але потім вони також поширені в сучасній статистичній роботі, яка не є вилученням даних. 2) У своїй власній (статистичній) роботі я зацікавився побудовою моделі для пояснення та прогнозування, залежно від проблеми - я б не вважав, що це обробка даних. 3) Я залишаю висновок, що сучасний ДМ - це особливе застосування статистики, що, на мою думку, є прекрасним висновком.
Бретт

6

Раніше я писав пост, де зробив кілька спостережень, порівнюючи видобуток даних з психологією. Я думаю, що ці спостереження можуть охопити деякі відмінності, які ви визначаєте:

  1. "Здійснення даних більше пов'язане з прогнозуванням використання спостережуваних змінних, ніж з розумінням причинно-наслідкової системи прихованих змінних; психологія, як правило, більше стосується причинної системи прихованих змінних.
  2. Обробка даних зазвичай включає масивні набори даних (наприклад, 10 000 + рядків), зібрані для інших цілей, ніж цілі обміну даними. Психологічні набори даних, як правило, невеликі (наприклад, менше 1000 або 100 рядків) і збираються явно для вивчення дослідницького питання.
  3. Психологічний аналіз, як правило, включає тестування конкретних моделей. Підходи до розробки автоматизованих моделей, як правило, не є теоретично цікавими ". - Data Mining та R

Я думаю, що пункти 2 і 3 є корисними коментарями і відповідають тому, що я бачу як відмінність між двома СА та ДМ. Я не так впевнений у вашій першій точці. Я робив статистичну роботу там, де мені було цікаво покращити розуміння причинно-наслідкових зв’язків. Однак я також провів статистичну роботу, де завданням було взяти відомі взаємозв'язки та розробити моделі з єдиною метою прогнозування, але які не поділяють інших особливостей "пошуку даних".
Бретт

4

Я не думаю, що відмінність, яку ви робите, насправді пов'язана з різницею між обробкою даних та статистичним аналізом. Ви говорите про різницю між дослідницьким аналізом та підходом для прогнозування моделювання.

Я думаю, що традиція статизму будується з усіма кроками: дослідницький аналіз, потім моделювання, потім оцінка, потім тестування, потім прогнозування / виведення. Статистик робить дослідницький аналіз, щоб з’ясувати, як виглядають дані (підсумок функції під R!). Я думаю, що обробка даних є менш структурованою і її можна ототожнити за допомогою дослідницького аналізу. Однак він використовує методи зі статистики, яка базується на оцінці, прогнозуванні, класифікації ....


Я можу це купити. Дані даних - це більш дослідницьке застосування статистичних методик. Хоча я не думаю, що цього розрізнення недостатньо. Коли я роблю EDA на своєму наборі зі 100 спостережень від розробленого експерименту, я не думаю, що хтось би називав цей пошук даних, чи не так?
Бретт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.