Дві культури: статистика проти машинного навчання?


420

Минулого року я прочитав допис у блозі від Брендана О'Коннора під назвою "Статистика проти машинного навчання, боріться!" які обговорювали деякі відмінності між двома полями. Ендрю Гельман відповів на це позитивно :

Саймон Бломберг:

З пакету статей R: Якщо перефразовувати провокаційно, "машинне навчання - це статистика за вирахуванням будь-якої перевірки моделей та припущень". - Брайан Д. Ріплі (про різницю між машинним навчанням та статистикою) useR! 2004 р., Відень (травень 2004 р.) :-) Привітання сезону!

Ендрю Гельман:

У такому випадку, можливо, нам слід частіше позбуватися перевірки моделей та припущень. Тоді, можливо, нам вдасться вирішити деякі проблеми, які люди з машинного навчання можуть вирішити, але ми не можемо!

Був також «Статистичне моделювання: Дві культури» папір Лео Breiman в 2001 році , який стверджував , що статистикам занадто сильно покладатися на моделювання даних, і що методи машинного навчання роблять успіхи, а НЕ покладатися на точність передбачення моделей.

Чи змінилося поле статистики за останнє десятиліття у відповідь на ці критики? Чи існують ці дві культури чи вже виросла статистика для використання методів машинного навчання, таких як нейронні мережі та підтримуючі векторні машини?


21
Спасибі @robin; зробив CW. Хоча я не цілком сприймаю це як «аргументативне»; Є два поля, які поінформували одне одного (це факт), і питання полягає в тому, наскільки вони розвивалися разом за останнє десятиліття.
Шейн

16
Додайте третю культуру: обмін даними . Машини, що навчаються, та майнери даних говорять зовсім іншими мовами. Зазвичай машинні студенти навіть не розуміють, чим відрізняється обмін даними. Для них це просто непідконтрольне навчання; вони ігнорують аспекти управління даними і застосовують також пошук даних модних слів до машинного навчання, додаючи ще більше плутанини.
Аноні-Мус

4
Є схоже запитання щодо видобутку даних та статистики
naught101

2
Цікава дискусія у блозі Вассермана .

2
Мені здається, що насправді зв’язок між ML та статистикою недостатньо наголошується. Багато студентів CS ігнорують, щоби дізнатися про статистику протягом своїх основних днів, оскільки вони не розуміють критичної важливості обгрунтованого обґрунтування статистики при виконанні завдань МЛ. Можливо, навіть багато CS-відділів у всьому світі буде повільно діяти. Це виявиться дуже дорогою помилкою, і я, безумовно, сподіваюся, що більше інформації про важливість знань статистики в КС. В основному ML = Статистика в багатьох сенсах.
xji

Відповіді:


195

Я думаю, що відповідь на ваше перше запитання є просто ствердною. Візьміть будь-який випуск Статистичної науки, JASA, Анналів статистики за останні 10 років, і ви знайдете документи про розширення, SVM та нейронні мережі, хоча ця сфера зараз менш активна. Статистики привласнили роботу Валіанта і Вапника, але з іншого боку, комп'ютерні працівники поглинули роботи Доного і Талагранда. Я не думаю, що вже є велика різниця в обсязі та методах. Я ніколи не купував аргумент Бреймана про те, що люди CS були зацікавлені лише в мінімізації втрат, використовуючи будь-які роботи. На цю думку сильно вплинули його участь у конференціях Neural Networks та його консультаційна робота; але PAC, SVM, Boosting мають усі міцні основи. І сьогодні, на відміну від 2001 року, Статистика більше стосується властивостей з кінцевою вибіркою,

Але я думаю, що є ще три важливі відмінності, які не скоро пройдуть.

  1. Документи з методичної статистики все ще є надзвичайно формальними та дедуктивними, тоді як дослідники машинного навчання толерантніше ставляться до нових підходів, навіть якщо вони не мають підтвердження;
  2. Спільнота МЛ в основному ділиться новими результатами та публікаціями на конференціях та пов'язаних з ними матеріалах, тоді як статистики використовують статті журналів. Це уповільнює прогрес у статистиці та виявлення дослідників зірок. Джон Ленгфорд має приємний пост з цього питання з деякого часу назад;
  3. Статистика все ще охоплює сфери, які (поки що) мало хвилюють ML, такі як дизайн опитувань, вибірки, промислова статистика тощо.

20
Чудовий пост! Зауважимо, що Вапнік мав доктор статистичних наук. Я не впевнений, що є багато вчених-комп’ютерів, які знають прізвище Talagrand, і я впевнений, що 0,01% з них можуть пам'ятати один результат талагранда :) Ви можете? Я не знаю роботи
Валіанта

Я бачу різні відповіді, коли мова йде про наукові дослідження та програми. Я думаю, що ви відповіли в контексті колишнього. У програмах я думаю, що найбільша різниця полягає в тому, як поля розширюються. ML через канал науки даних приймає всіх, хто може кодувати, буквально. Для статистики вам все ще потрібен офіційний ступінь статистики або поблизу полів для введення робочої сили.
Аксакал

1
Як вибіркове обстеження, так і промислова статистика - це багатомільярдні поля (секція методів дослідження Американської статистичної асоціації є третьою за величиною після біометрики та консалтингу, і остання включає також велику кількість промислових статистиків. Також є окремий розділ про якість , а там є ще окремий матеріал Six-Sigma та інші методи контролю якості, не всі вони повністю в статистиці). Обоє мають критичний дефіцит статистиків, оскільки нинішня кількість робочих бумерів, які прийшли на роботу в ці райони у 60-х роках, виходить на пенсію.
StasK

4
У той час як деякі люди отримують роботу, розміщуючи на червоній доріжці на конференціях, інші люди знаходять своє, застосовуючи методи в реальному світі. Останні люди не мають такого інтересу до ідентифікації будь-яких зірок; вони швидше визначать методи, які працюють, хоча багато разів через кілька років у певній галузі вас знову і знову приводять до одних імен.
StasK

Чому відбір проб не повинен хвилювати ML? Хіба це не зовсім схоже на проблему правильних маркованих даних про навчання в МЛ?
Герріт

169

Найбільша різниця, яку я бачу між громадами, полягає в тому, що статистика наголошує на висновках, тоді як машинне навчання підкреслює передбачення. Коли ви робите статистику, ви хочете зробити висновок про процес, за допомогою якого були створені ваші дані. Коли ви займаєтесь машинним навчанням, ви хочете знати, як можна передбачити, які дані в майбутньому будуть виглядати як wrt деякої змінної.

Звичайно, вони перетинаються. Знаючи, як генеруються дані, дасть вам декілька підказок щодо того, яким би був хороший прогноз, наприклад. Однак одним із прикладів різниці є те, що машинне навчання вирішило проблему p >> n (більше функцій / змінних, ніж навчальні зразки) з самого початку, тоді як статистика лише починає серйозно ставитися до цієї проблеми. Чому? Тому що ви все ще можете робити хороші прогнози, коли p >> n, але ви не можете робити дуже хороших висновків про те, які змінні насправді важливі та чому.


13
Чи можна це (надто) спростити як щось на зразок різниці між генеративними та дискримінаційними моделями?
Уейн

5
"Слід вирішити проблему [класифікації] безпосередньо і ніколи не вирішувати більш загальну проблему як проміжний крок ..." - Вапник
Уейн

3
@mbq: Я не мав на увазі підкреслити, що ніякого висновку не можна робити, просто що це не головна мета і що зазвичай p >> n в ML, що робить це набагато складніше.
дзимча

2
Я категорично не згоден з цим поглядом. Це виглядає неправильно. Такі речі, як періодичні нейронні мережі, також намагаються зробити висновки про процеси і навіть продовжувати та генерувати нові послідовності.
печерний чоловік

2
То що робити з робототехнікою? Імовірнісна робототехніка в основному орієнтована на умовиводи і досить домінуюча в застосуванні. Але все-таки інший "аромат", ніж статистика (і більше інженерії порівняно з машиною / навчанням; тобто аналіз / контроль в режимі реального часу)
GeoMatt22

134

Байесян: "Привіт, машинознавець!"

Частота: "Привіт, машинознавець!"

Машинне навчання: "Я чую, ви, хлопці, хороші в роботі. Ось деякі дані".

F: "Так, давайте запишемо модель, а потім обчислимо MLE."

n1n

F: "Ага, дякую, що нагадали. Я часто думаю, що я повинен використовувати MLE для всього, але мене цікавлять неупереджені оцінки тощо".

М.Л .: "Е, про що це філософствує? Чи допоможе це мені?"

÷(n1)

М.Л .: "Отже, що тебе хвилює?"

F: "Оцінка".

М.Л .: "Мені подобається звук цього".

θθθ

М.Л .: "Звучить чудово! Здається, що лікарі-ветеринари - прагматичні люди. Ви оцінюєте кожну чорну скриньку за її результатами. Оцінка є ключовою".

F: "Дійсно! Я розумію, ви, хлопці, використовуєте подібний підхід. Перехресне підтвердження, чи щось таке? Але це для мене звучить безладно".

ML: "Брудний?"

F: "Ідея перевірити ваш оцінювач на реальних даних мені здається небезпечною. Емпіричні дані, які ви використовуєте, можуть мати з цим всілякі проблеми і можуть не вести себе за моделлю, про яку ми домовились для оцінки".

θ

F: "Так. Хоча ваш метод, можливо, працював на одному наборі даних (набір даних із даними поїздів і випробувань), який ви використовували при оцінці, я можу довести, що моя завжди буде працювати".

ML: "Для всіх наборів даних?"

F: "Ні"

ML: "Значить, мій метод був перевірений на одному наборі даних. Ви не перевіряли свій реальний набір даних?"

F: "Правильно".

М.Л .: "Тож мене випереджають! Мій метод кращий, ніж ваш. Він прогнозує рак у 90% часу. Ваше" доказ "справедливе лише в тому випадку, якщо весь набір даних поводиться за моделлю, яку ви припускали."

F: "Емм, так, гадаю."

θ

F: "Це правильно. Якщо дані справді не є нормальними (або будь-якими іншими), моє доказ марно".

М.Л .: "Тож моя оцінка більш достовірна та всебічна? Вона працює лише на наборах даних, які я пробувала до цих пір, але принаймні вони справжні набори даних, бородавки і все. Там ви були, намагаючись стверджувати, що ви більш" консервативні " "і" ретельно ", і щоб вас цікавили перевірки моделей та ін."

Б: (заперечує) "Ей, хлопці, вибачте, що перебиваю. Я б хотів вступити в рівновагу і, можливо, продемонструвавши якісь інші проблеми, але мені дуже подобається спостерігати за тим, як мої колеги-чатники примружуються".

F: "Вау!"

М.Л .: "Добре, діти. Це стосувалося оцінювання. Оцінювач - це чорне поле. Дані надходять, дані виходять. Ми затверджуємо або не схвалюємо оцінювач на основі того, як він працює під час оцінки. Нас не хвилює. про "рецепт" або "принципи дизайну", які використовуються ".

F: "Так. Але у нас є дуже різні уявлення про те, які оцінки важливі. ML буде робити тренінги та тестування на реальних даних. Тоді як я буду робити більш загальну оцінку (тому що вона передбачає широко застосовне підтвердження) та також більш обмеженим (тому що я не знаю, чи фактично ваш набір даних складається з припущень моделювання, які я використовую під час проектування своєї оцінки.) "

ML: "Яку оцінку ви використовуєте, B?"

F: (заперечує) "Гей. Не смій мене. Він нічого не оцінює. Він просто використовує свої суб'єктивні переконання і біжить з цим. Або щось".

Б: "Це загальна інтерпретація. Але також можна визначити байєсіанство за допомогою переважних оцінок. Тоді ми можемо використовувати ідею, що ніхто з нас не цікавиться тим, що знаходиться в чорному полі, ми дбаємо лише про різні способи оцінки".

Б продовжує: "Класичний приклад: Медичний тест. Результат аналізу крові є або позитивним, або негативним. Частиця буде цікавити здорових людей, яка частка отримує негативний результат". Аналогічно, яка частка хворих людей отримайте позитивний результат. Частіст буде обчислювати їх для кожного методу аналізу крові, який розглядається, а потім рекомендує використовувати тест, який отримав найкращу пару балів ".

F: "Саме так. Що ще ви могли б хотіти?"

Б: "А як щодо тих людей, які отримали позитивний результат тесту? Вони захочуть знати" тих, хто отримає позитивний результат, скільки отримає хворий? " і "тих, хто отримує негативний результат, скільки здорових?" "

М.Л .: "Так, це здається кращою парою питань".

F: "ГЕРЕСІ!"

Б: "Ось ми знову йдемо. Йому не подобається, куди це йде".

ML: "Мова йде про" пріори ", чи не так?"

F: "ЗЛИЙ".

B: "Так чи інакше, ти маєш рацію в ML. Для того, щоб підрахувати частку людей, що мають позитивний результат, які є хворими, ти повинен зробити одну з двох речей. Один з варіантів - запустити тести на багатьох людей і просто дотримуватися відповідна пропорція. Скільки людей, наприклад, помирають від цієї хвороби, наприклад ".

ML: "Це звучить як те, що я роблю. Використовуйте поїзд і тест".

Б: "Але ви можете заздалегідь обчислити ці цифри, якщо ви готові зробити припущення щодо рівня захворюваності на населення. Частоцист також робить свої розрахунки заздалегідь, але не використовуючи цей показник рівня захворюваності на рівні населення".

F: "БІЛЬШЕ НЕЗНАЧЕННІ ПРИМІТКИ".

Б: "О, заткнись. Раніше вас дізналися. ML виявив, що ви так само любите необгрунтовані припущення, як і будь-хто. Ваші" перевірені "ймовірності покриття не збігаються в реальному світі, якщо всі ваші припущення не виправдаються. Чому моє попереднє припущення настільки різне? Ви називаєте мене божевільним, але ви робите вигляд, що ваші припущення - це робота консервативного, ґрунтовного аналізу, що не передбачає припущень ".

Б (продовжує): "У будь-якому випадку, ML, як я вже говорив. Байєзці люблять різний вид оцінювання. Нас більше цікавить кондиціонування спостережуваних даних і відповідно обчислення точності нашого оцінювача. Ми не можемо виконати цю оцінку без використання Цікавим є те, що як тільки ми приймаємо рішення про цю форму оцінювання, і як тільки ми вибираємо нашу попередню, у нас є автоматичний "рецепт", щоб створити відповідний оцінювач. У частофіліста немає такого рецепта. Якщо він хоче неупереджений оцінювач для складної моделі, у нього немає автоматизованого способу побудови відповідного оцінювача. "

ML: "А ви це робите? Ви можете автоматично створити оцінювач?"

B: "Так. У мене немає автоматичного способу створення об'єктивного оцінювача, тому що я вважаю, що упередження - це поганий спосіб оцінити оцінювач. Але з огляду на умовне оцінювання даних, яке мені подобається, і попереднє, я може підключити попереднє і ймовірність дати мені оцінку ".

М.Л .: "Так чи інакше, давайте резюмуємо. У всіх нас є різні способи оцінити наші методи, і ми, мабуть, ніколи не погодимося, які методи найкращі".

Б: "Ну, це нечесно. Ми могли б їх змішувати і співставляти. Якщо хтось із нас має хороші дані про тренування, ми, мабуть, повинні перевірити їх. І взагалі ми всі повинні перевірити якомога більше припущень. "Докази теж можуть бути цікавими, прогнозуючи ефективність за певною припущеною моделлю генерування даних."

F: "Ага, хлопці. Давайте будемо прагматично оцінювати. І насправді я перестану нав'язуватись властивостями нескінченного зразка. Я просив учених дати мені нескінченний зразок, але вони все ще не робили цього. Це час мені знову зосередитись на кінцевих зразках ".

М.Л .: "Отже, у нас є лише останнє питання. Ми багато сперечалися про те, як оцінити наші методи, але як ми створюємо наші методи".

Б: "Ах. Як я вже запускав раніше, у нас, байєсів, є більш потужний загальний метод. Це може бути складним, але ми завжди можемо написати якийсь алгоритм (можливо, наївна форма MCMC), який буде вибіркою з нашої задньої частини. "

F (заперечує): "Але це може мати упередженість".

Б: "Так, можливо, ваші методи. Потрібно нагадати вам, що MLE часто є необ'єктивним? Іноді у вас виникають великі труднощі з пошуку неупереджених оцінювачів, і навіть коли у вас є дурний оцінювач (для якоїсь дійсно складної моделі), який скаже" дисперсія негативна. І ви називаєте це неупередженим. Незаангажованим, так. Але корисним, ні! "

М.Л .: "Гаразд, хлопці. Ви знову проїжджаєте. Дозвольте поставити вам запитання, Ф. Чи ви коли-небудь порівнювали упередженість свого методу з ухилом методу В., коли ви обидва працювали над однією проблемою?"

F: "Так. Насправді, я ненавиджу це визнавати, але підхід Б. іноді має менший ухил та MSE, ніж мій оцінювач!"

М.Л .: "Урок тут полягає в тому, що, хоча ми трохи не погоджуємось з оцінкою, ніхто з нас не має монополії на те, як створити оцінювач, який має властивості, які ми хочемо".

Б: "Так, ми повинні прочитати твір один одного трохи більше. Ми можемо дати іншим натхнення для оцінювачів. Ми можемо виявити, що інші оцінки добре працюють, не в першу чергу, над нашими проблемами".

F: "І я повинен перестати нав'язливо ставитися до упередженості. Незаангажований оцінювач може мати смішні розбіжності. Я думаю, що всі ми повинні" брати на себе відповідальність "за вибір, який ми робимо, як ми оцінюємо, і властивості, які ми хочемо бачити в наших оцінювачах. Ми не можемо перешкоджати філософії. Спробуйте всі оцінки, які ви можете. І я продовжую придивлятися до байєсівської літератури, щоб отримати нові ідеї для оцінювачів! "

B: "Насправді, багато людей насправді не знають, що таке їх власна філософія. Я навіть не впевнений у собі. Якщо я скористаюся байєсівським рецептом, а потім підтверджую приємний теоретичний результат, це не означає, що я Частиця турбується про вищезазначені докази продуктивності, він не дбає про рецепти. І якщо я замість цього (або добре) роблю тест-поїзд, чи це означає, що я машинолог? "

М.Л .: "Здається, ми всі тоді дуже схожі".


8
Для читачів, які прочитають цю відповідь до кінця, я б запропонував додати коротке повідомлення про вилучення (та надати відповідне цитування, якщо воно застосовується).
chl

Досі проголосували -2 голоси, я думаю, що я не встиг би врятувати це :) Я думаю, що закінчення, де вони всі погоджуються один з одним, і визнаю, що вони можуть використовувати методи один одного, не хвилюючись про філософію один одного, - це 'повідомлення про винос'.
Аарон Макдейд

10
Цитування не потрібно. Я щойно придумав. Це, мабуть, не дуже добре поінформовано, це ґрунтується на моїх власних (помилкових) інтерпретаціях аргументів, які я мав протягом багатьох років з невеликою кількістю колег.
Аарон Макдейд

3
Такий діалог (хоча коротший) я бачив і раніше, і мені здається цікавим. Мене також хвилювали події, тому моя пропозиція скласти короткий підсумок вгорі, щоб мотивувати читачів прочитати решту вашого допису.
chl

3
13/10 знову заперечуватимуть
410_Gone

67

У такій дискусії я завжди згадую відому цитату Кена Томпсона

Коли сумніваєтесь, використовуйте грубу силу.

У цьому випадку машинне навчання - це порятунок, коли припущення важко вловити; або, принаймні, це набагато краще, ніж гадати їх неправильно.


2
Завдяки збільшенню обчислювальних можливостей у ці роки та автоінкодерам та пов'язаних з ними техніках це правда як ніколи.
Firebug

Щоб вирішити проблему, інженери використовують формули, прийоми та процедури, якими вони користувалися раніше, і впевнені в своєму успіху ... Зазвичай це називається застосуванням грубої сили або використанням правил Thumb ... Нові формули, методи і процедури використовуються поетапно ... Інженерна діяльність - це групова діяльність - там, де інженери, технічні працівники та ручні працівники працюють разом. Коли вводиться нова процедура, потрібен час для підготовки техніків та робітників до цієї процедури. Тож модернізація вводиться в еволюційний процес.
б.саху

64

Лексика кожної дисципліни вимагає більше розділення, ніж має бути.

Існує багато випадків, коли ML використовує один термін, а Статистика використовує інший термін, але обидва посилаються на одне і те ж - добре, можна було б сподіватися, що це не викликає постійної плутанини (наприклад, особливості / атрибути проти очікування змінні, або нейронна мережа / MLP проти прогнозування-переслідування).

Що набагато проблемніше - це те, що обидві дисципліни використовують один і той же термін для позначення абсолютно різних понять.

Кілька прикладів:

Функція ядра

У ML функції ядра використовуються в класифікаторах (наприклад, SVM) і, звичайно, в машинах ядра. Термін позначає просту функцію ( косинус, сигмоїдальність, rbf, поліном ) для відображення нелінійно відокремлюваного нового вхідного простору, так що дані тепер лінійно відокремлюються в цьому новому просторі введення. (на відміну від використання нелінійної моделі для початку).

У статистиці функцією ядра є функція зважування, яка використовується при оцінці щільності для вирівнювання кривої щільності.

Регресія

У ML, які прогнозують алгоритмів або реалізації цих алгоритмів , які повертають класу мітки «класифікаторів» є (іноді) називають машини --eg, опорних векторів , ядро машини . Протилежністю машинам є регресори , які повертають бал (безперервна змінна) - наприклад, підтримують регресію вектора .

Рідко алгоритми мають різні імена, засновані на режимі - наприклад, MLP - це термін, який використовується, незалежно від того, повертає мітку класу або суцільну змінну.

У статистиці, регресії , якщо ви намагаєтеся побудувати модель на основі емпіричних даних, передбачити якусь змінну відповіді на основі однієї або декількох пояснювальних змінних чи більше змінних - тоді ви робите регресійний аналіз. Не має значення, чи є вихідна суцільна змінна чи мітка класу (наприклад, логістична регресія). Так, наприклад, регресія найменших квадратів відноситься до моделі, яка повертає безперервне значення; логістична регресія, з іншого боку, повертає оцінку ймовірності, яка потім дискретизується до міток класу.

Упередження

В ML термін зміщення в алгоритмі концептуально ідентичний терміну перехоплення, який використовують статистики при регресійному моделюванні.

У статистиці зміщення є випадковою помилкою - тобто якесь явище вплинуло на весь набір даних у тому ж напрямку, що, в свою чергу, означає, що подібну помилку неможливо усунути шляхом перекомпонування або збільшення розміру вибірки.


19
У статистиці зміщення не те саме, що помилка. Помилка чисто випадкова, упередженість - ні. У вас є упередженість, коли ви знаєте, що очікуване значення вашої оцінки не дорівнює справжньому.
Йоріс Мейс

2
(@Joris Або навіть якщо ви цього не знаєте! Звучить банально, але просто з'ясування, чи є упередження, може бути значною практичною проблемою. Тільки з даних, наскільки ви можете бути впевненими, що оцінений параметр регресії не містить опущеної змінної упередженість?) Поширене неправильне уявлення про те, що зміщення - це властивість даних, а не властивість оцінювача; Цікаво, чи не випливає це з нетехнічного використання на кшталт "це опитування є упередженим!" Статистики також не завжди узгоджуються щодо таких термінів, як "помилка": середня квадратна помилка (оцінювача) включає компонент з ухилом у квадрат, так що "помилка" не є "чисто випадковою".
Срібна рибка

2
Я думаю, що термін «машина» у СВМ слід віднести до особистого смаку Володимира Вапніча. Сьогодні я не думаю, що він не використовується для іменування жодного іншого класифікатора.
iliasfl

3
E[X^X]

1
[0,1]1

25

Машинне навчання, схоже, має свою основу в прагматичному - практичному спостереженні або моделюванні реальності. Навіть у статистиці бездумна "перевірка моделей та припущень" може призвести до відмови від корисних методів.

Наприклад, років тому перша модель продажу банкрутства, реалізована у продажу (та працююча), була реалізована кредитними бюро за допомогою простої старої лінійної регресійної моделі, орієнтованої на результат 0-1. Технічно це поганий підхід, але практично він спрацював.


4
це аналогічно використанню гравітаційних моделей планети для міського руху. Я вважаю це абсурдним, але насправді він працює точно тихо
dassouki

5
Мене зацікавило останнє твердження: "найперша комерційно доступна (і працююча) модель банкрутства, реалізована кредитними бюро, була створена за допомогою простої старої лінійної моделі регресії, орієнтованої на результат 0-1". Яка це модель? Я вважаю, що першою моделлю був RiskCalc від Moody's, і навіть перша версія була логістичною регресійною моделлю. Розробники цієї моделі не були людьми з CS, які мають досвід навчання в ML, а скоріше з економетрики.
гаппі

2
Б'юсь об заклад, що вони використали дискримінантний аналіз перед логістичною регресією, оскільки DA був винайдений ще до LR
Ніл МакГуйган

1
@gappy Я думаю про модель банкрутства споживачів MDS для окремих записів кредитних бюро. RiskCalc була оцінкою кредитного ризику для компаній. Модель банкрутства MDS відрізнялася від тогочасних моделей ризику FICO тим, що ціллю було банкрутство та НЕ кредитна неспроможність (наприклад, оригінальні показники FICO). Мій коментар був меншим щодо специфіки ML в тому контексті (оскільки він ледь не використовувався - якщо взагалі - в той час, коли модель BK була побудована), але пов'язаний з тим, що практична ефективність зовсім не обов'язково пов'язана з теоретичні обмеження або порушення припущення.
Джей Стівенс

Цікаво, чому технічно це був поганий підхід. Тому що він зробив занадто багато спрощених припущень, які б сильно відрізнялися від реальності?
xji

25

Найбільші відмінності, які я помічав за останній рік, це:

  • Експерти машинного навчання не витрачають достатньо часу на основи, і багато з них не розуміють оптимальних правил прийняття рішень та правильних правил балів точності. Вони не розуміють, що методи прогнозування, які не передбачають припущень, вимагають більших розмірів вибірки, ніж ті, що є.
  • Ми статистики витрачаємо занадто мало часу на вивчення хорошої практики програмування та нових обчислювальних мов. Ми занадто повільно змінюємось, коли мова йде про обчислення та використання нових методів із статистичної літератури.

2
Ще одна примітка полягає в тому, що ми, статистики, як правило, обмежуємо себе методами, які ми можемо довести математикою, які будуть добре працювати (за набором, можливо, смішних припущень), особливо якщо мова йде про публікації. Люди машинного навчання дуже раді використовувати методи, які емпірично працюють добре на кількох наборах даних. Як результат, я вважаю, що література про МЛ рухається набагато швидше, але також потребує більшого просіювання через дурість.
Кліф АВ

24

Я не погоджуюся з цим питанням, оскільки це дозволяє припустити, що машинне навчання та статистика - це різні або суперечливі науки .... коли це навпаки!

машинне навчання широко використовує статистику ... Швидке опитування будь-якого програмного забезпечення для машинного навчання або обміну даними дозволить виявити методи кластеризації, такі як k-засоби, також знайдені в статистиці .... також покаже методи зменшення розмірів, такі як аналіз основних компонентів. також статистична техніка ... навіть логістична регресія ще одна.

На мій погляд, головна відмінність полягає в тому, що традиційно статистику використовували для створення задуманої теорії, і зазвичай аналіз був розроблений навколо цієї основної теорії. У випадку, коли для вилучення даних або машинного навчання протилежний підхід, як правило, є нормою в тому, що у нас є результат, ми просто хочемо знайти спосіб його передбачити, а не задавати питання чи формувати теорію, це результат!


21

Я говорив про це на іншому форумі групи статистичних консультацій ASA. Моя відповідь була більш конкретна на видобуток даних, але вони йдуть рука об руку. Ми, статистики, обмацували ніс у шахтарів даних, інформатиків та інженерів. Це неправильно. Я думаю, що частина причини, що це відбувається, полягає в тому, що ми бачимо, що деякі люди в цих сферах ігнорують стохастичний характер їхньої проблеми. Деякі статистики називають видобуток даних вивільненням даних або вилученням даних. Деякі люди зловживають і зловживають методами, але статистики відстають у видобутку даних та машинному навчанні, оскільки ми малюємо їх широкою щіткою. Деякі великі статистичні результати надійшли поза сферою статистики. Підвищення - один важливий приклад. Але статистики, такі як Бріман, Фрідман, Хасті, Тібшірані, Ефрон, Гельман та інші отримали це, і їх керівництво залучило статистиків до аналізу мікромасив та інших масштабних проблем з висновками. Тож, хоча культури ніколи не збиваються з мережею, зараз є більше співпраці та співпраці між комп'ютерними вченими, інженерами та статистиками.


19

Справжня проблема полягає в тому, що це питання є помилковим. Це не машинне навчання проти статистики, це машинне навчання проти реального наукового прогресу. Якщо пристрій машинного навчання дає правильні прогнози 90% часу, але я не можу зрозуміти "чому", який внесок машинного навчання в цілому? Уявіть, якби методи машинного навчання використовувались для прогнозування положень планет: було б дуже багато самовдоволених людей, які думають, що вони можуть точно передбачити ряд речей зі своїми SVM, але що б вони насправді знали про проблему, яку вони мають у своїх руках ? Очевидно, що наука не дуже просувається за допомогою чисельних прогнозів, вона просувається за допомогою моделей (розумових, математичних), які дозволяють нам бачити далеко не просто числа.


1
+1 Це нагадує мені про використання моделей в економіці. Економетричні моделі побудовані на пару цілей; а саме: аналіз політики та прогнозування. Взагалі, нікого насправді не цікавить прогнозування - найбільше значення мають симуляції політики. Як сказав Девід Хендрі, найкраща модель прогнозування не обов'язково є найкращою моделлю для аналізу політики - і навпаки. Потрібно відступити і подумати ... Яке призначення моделі? На які питання ми намагаємось відповісти? І як це вписується в емпіричні відкриття .
Graeme Walsh

17

Статистичне навчання (AKA Machine Learning) бере початок у прагненні створити програмне забезпечення шляхом «навчання на прикладах». Ми хотіли б зробити багато завдань, якими ми хочемо виконати комп'ютери (наприклад, комп’ютерний зір, розпізнавання мови, управління роботами), які важко програмувати, але для яких легко навести приклади навчання. Спільнота дослідницької спільноти машинного навчання / статистичного навчання розробила алгоритми для вивчення функцій на цих прикладах. Функція втрати, як правило, пов’язана із завданням на продуктивність (зір, розпізнавання мови). І, звичайно, у нас не було причин вважати, що існує якась проста "модель", яка лежить в основі цих завдань (бо в іншому випадку ми б самі самі закодували цю просту програму). Отже, вся ідея робити статистичний висновок не мала жодного сенсу. Мета - точність прогнозування і нічого іншого.

З часом різні сили почали рухати машинне навчання людей, щоб дізнатися більше про статистику. Однією з них була необхідність включення базових знань та інших обмежень у процесі навчання. Це змусило людей розглянути генеративні ймовірнісні моделі, оскільки вони дозволяють легко включати попередні знання через структуру моделі та пріорі щодо параметрів та структури моделі. Це призвело до того, щоб відкрити багату статистичну літературу в цій галузі. Ще однією силою було відкриття феномена оздоблення. Це змусило Спільноту МЛ дізнатися про перехресну перевірку та регуляризацію, і ми знову відкрили багату статистичну літературу з цього питання.

Тим не менш, основна робота більшості машинного навчання полягає у створенні системи, яка демонструє певну ефективність, а не робити висновки про невідомий процес. У цьому принципова відмінність ML та статистики.


15

В ідеалі слід досконало знати як статистику, так і машинне навчання, перш ніж намагатися відповісти на його запитання. Я дуже неофіт до ML, тому вибачте мене, якщо я кажу, що це наївність.

Я маю обмежений досвід роботи з SVM та регресійними деревами. Що мені не вистачає в ML з точки зору статистики, це добре розроблена концепція умовиводу.

Здається, що висновок про МЛ зводиться майже виключно до точності прогнозування, що вимірюється (наприклад) середньою помилкою класифікації (MCE) або збалансованою швидкістю помилок (BER) або подібним. ML має дуже хорошу звичку ділити дані випадковим чином (зазвичай 2: 1) на навчальний набір і тестовий набір. Моделі підходять за допомогою навчального набору, а продуктивність (MCE, BER тощо) оцінюється за допомогою тестового набору. Це відмінна практика і лише повільно пробивається в основну статистику.

ML також широко використовує методи перекомпонування (особливо крос-валідації), походження яких, мабуть, у статистиці.

Однак ML, здається, не має повністю розробленої концепції умовиводу - поза точністю прогнозування. Це має два результати.

1) Мабуть, не існує розуміння того, що будь-яке прогнозування (оцінка параметрів тощо) може зазнати випадкової помилки та, можливо, помилки систематики (зміщення). Статистики приймуть, що це неминуча частина прогнозування, і спробують оцінити помилку. Статистичні методи намагаються знайти оцінку, яка має мінімальну зміщення та випадкову помилку. Їх методи, як правило, керуються моделлю процесу обробки даних, але не завжди (наприклад, Bootstrap).

2) Мабуть, не існує глибокого розуміння в МЛ меж застосування моделі до нових даних до нового зразка з тієї ж сукупності (незважаючи на те, що я говорив раніше про підхід до набору навчальних тестів). Різні статистичні методи, серед яких перехресні перевірки та терміни покарання, застосовані до методів, що ґрунтуються на вірогідності, орієнтують статистиків на компроміс між парситуванням і складністю моделі. Такі вказівки в МЗ здаються набагато більш спеціальними.

Я бачив декілька робіт у ML, де перехресне підтвердження використовується для оптимізації розміщення багатьох моделей на навчальному наборі даних - випускаючи кращі та більш пристосовані по мірі збільшення складності моделі. Мабуть, мало розуміють, що крихітні надбавки в точності не варті додаткової складності, і це, природно, призводить до надмірної підгонки. Тоді всі ці оптимізовані моделі застосовуються до тестового набору як перевірка прогнозованої продуктивності та для запобігання перевитрати. Дві речі забули (вище). Прогнозний показник матиме стохастичний компонент. По-друге, багаторазові випробування проти тестового набору знову призведуть до перевиконання. "Найкращу" модель буде обрано практикуючим серед молодих людей без повної оцінки, яку він / вона вишнею відібрав з одного усвідомлення багатьох можливих доходів цього експерименту.

Будь-які мої 2 копійки варті. Нам є чому навчитися один у одного.


2
ваш коментар щодо "найкращої" моделі буде обраний практикуючим МЛ ... так само добре застосовується і до загальної статистики. У більшості процедур вибору моделі на простоті кінцевої моделі просто робиться так, ніби не проводився пошук простору моделі (враховуючи, що усереднення моделі є досить новим). Тож я не думаю, що ви можете використовувати це як "клуб", щоб бити практикуючих ML, так би мовити.
ймовірністьлогічний

Як практикуючий МЛ, я не визнаю картину, яку ви малюєте. Література ML - це майже вся версія про регуляризацію, MDL, Bayesian, SRM та інші підходи управління складністю моделі. З того місця, де я сиджу, здається, що методи статистики контролю складності менш структуровані, але це для вас упереджене.
Мухаммед Алкарурі

13

Це питання також може поширюватися на так звану суперкультуру науки про дані в 2015 році. Девід Донохо виступив за 50 років Data Science , де він стикається з різними точками зору від статистики та інформатики (включаючи машинне навчання), наприклад, прямі точки зору (від різних осіб) таким чином:

  • Навіщо нам потрібна наука про дані, коли ми мали статистику протягом століть?
  • Data Science - це статистика.
  • Наука даних без статистики можлива, навіть бажана.
  • Статистика є найменш важливою частиною науки про дані.

і покладається на історичні, філософські міркування, наприклад:

Вражаюче те, як під час перегляду презентації щодо сучасної науки про дані, в якій статистичні дані даються досить коротко, я не можу не помітити, що всі основні інструменти, приклади та ідеї, які викладаються як наука про дані, були усі буквально винайдений кимсь, хто навчався в докторантурі. статистику, а в багатьох випадках фактичне програмне забезпечення, що використовується, було розроблено особою, що має ступінь магістра або доктора наук. в статистиці. Накопичені відомства статистиків протягом століть просто занадто непосильні, щоб їх повністю завершити, і їх не можна приховати у навчанні, дослідженні та здійсненні наукових даних.

Цей нарис породив багато відповідей та внесок у дискусію.


3
Це виглядає як документ, який варто було б згадати в цій останній популярній темі stats.stackexchange.com/questions/195034 , я думаю, що ніхто там не згадував.
амеба

1
Я думаю, якщо ви опублікуєте там нову відповідь, у якій підсумовується цей документ, це буде чудово.
амеба

Я спершу підсумую всі дані відповіді
Лоран Дюваль

12

Я насправді не знаю, в чому полягає концептуальна / історична різниця між машинним навчанням та статистикою, але я впевнений, що це не так очевидно ... і мені не дуже цікаво знати, чи я машинолог чи статистик, я думаю Через 10 років після папери Бреймана багато людей обидва ...

У всякому разі, мені було цікавим питання про точність прогнозування моделей . Ми маємо пам’ятати, що не завжди можливо виміряти точність моделі, а точніше, ми найчастіше неявно робимо деяке моделювання при вимірюванні помилок.

Наприклад, середня абсолютна похибка прогнозу часових рядів - це середнє значення з часом, і воно вимірює ефективність процедури прогнозування медіани з припущенням, що продуктивність у певному сенсі є нерухомою і демонструє деяку ергодичну властивість. Якщо (з якихось причин) вам потрібно прогнозувати середню температуру на землі на наступні 50 років, і якщо ваше моделювання працює добре протягом останніх 50 років ... це не означає, що ...

Більш загально, (якщо я пам'ятаю, це називається безкоштовним обідом) ви нічого не можете зробити без моделювання ... Крім того, я думаю, що статистика намагається знайти відповідь на питання: "щось важливе чи ні", це дуже важливе питання в науці, і на нього не можна відповісти в процесі навчання. Стверджувати Джона Тукі (чи був він статистиком?):

Поєднання деяких даних та ниючий бажання відповіді не гарантують, що розумну відповідь можна отримати з даного масиву даних

Сподіваюся, це допомагає!


12

Очевидно, що ці дві області чітко стикаються з подібними, але різними проблемами, подібними, але не однаковими способами з аналогічними, але не однаковими поняттями, і працюють у різних відділах, журналах та конференціях.

Коли я читав Cressie і Read's Power Divergence Statistic, це все для мене встало на місце. Їх формула узагальнює загальновживану статистику тестів на таку, яка змінюється залежно від одного показника, лямбда. Є два особливих випадки: лямбда = 0 і лямбда = 1.

Інформатика та статистика підходять до континууму (який, мабуть, може включати й інші моменти). При одному значенні лямбда ви отримуєте статистику, яку зазвичай цитують у колах статистики, а за іншою - ви отримуєте статистику, яку зазвичай цитують у колах Comp Sci.

Статистика

  • Лямбда = 1
  • Суми квадратів з'являються багато
  • Варіантність як міра мінливості
  • Коваріація як міра асоціації
  • Статистична діаграма Chi-квадрата як міра відповідності моделі

Комп'ютерна наука:

  • Лямбда = 0
  • Суми журналів з'являються багато
  • Ентропія як міра мінливості
  • Взаємна інформація як міра асоціації
  • Статистика G-квадрата як міра примірності моделі

9

Ви запускаєте один раз фантазійний комп'ютерний алгоритм - і ви отримуєте презентаційну / статистичну документацію конференції CS (ух, яка швидка конвергенція!). Ви комерціалізуєте його і запускаєте його 1 мільйон разів - і ви порушуєтесь (ой, чому я весь час отримую марні та невідтворювані результати ???), якщо ви не знаєте, як використовувати ймовірність та статистику для узагальнення властивостей алгоритму.


3
Я спростував цю відповідь. Хоча з таким питанням воно неминуче пов'язане з особистими думками, ІМО, ми повинні прагнути до більш суттєвої критики. Це просто виходить у рота.
Енді Ш

@AndyW, це, звичайно, перебільшення того, що я бачу навколо. Невдача статистично задуматися стосується і академічного світу: повторюваність опублікованих результатів з психології чи медичних наук становить щонайбільше 25% (див., Наприклад, простоstatistics.tumblr.com/post/21326470429/… ), а не номінальний 95%. ОП хотіла, щоб статистика охопила інформатику; можливо, інформатика повинна охопити деякі статистичні дані, і я навів причини.
Стаск

5
@StasK Я думаю, ти робиш кілька важливих моментів, чому б не спробувати зробити їх трохи менш агресивними?
Гала

2
Мені сподобалася ця жалюгідна відповідь.
Ян Варбуртон

6

Існує область застосування статистики, де орієнтація на модель генерування даних має багато сенсу. У розроблених експериментах, наприклад, дослідженнях на тваринах, клінічних випробуваннях, промислових НД, статистики можуть допомогти в тому, яка модель формування даних. МЛ, як правило, не витрачає багато часу на цю дуже важливу проблему, оскільки ML зазвичай зосереджується на іншій дуже важливій проблемі прогнозування, що базується на "великих" даних спостережень. Це не означає, що ML не можна застосовувати до "великих" розроблених експериментів, але важливо визнати, що статистика має спеціальний досвід щодо "малих" проблем даних, що виникають в результаті експериментів з обмеженими ресурсами.

Зрештою, я думаю, що всі ми можемо погодитися використовувати те, що найкраще працює для вирішення проблеми. Наприклад, у нас може бути розроблений експеримент, який виробляє дуже широкі дані з метою прогнозування. Принципи статистичного проектування тут дуже корисні, і методи ML можуть бути корисними для побудови прогноктора.


4

Я думаю, що машинне навчання повинно бути підгалузевою статистикою, як, на мою думку, хімія повинна бути підгалуззю з фізики.

Я думаю, що натхненний фізикою погляд на хімію є досить твердим (я думаю). Я не думаю, що існує хімічна реакція, еквівалент якої фізично не відомий. Я думаю, що фізика зробила дивовижну роботу, пояснивши все, що ми можемо побачити на рівні хімії. Зараз завданням фізиків, здається, є пояснення крихітних таємниць на квантовому рівні в екстремальних умовах, які не можна спостерігати.

Тепер повернемося до машинного навчання. Я думаю, що це теж повинно бути підгалузевою статистикою (як хімія - це підгалузь фізики).

Але мені здається, що якимось чином ні сучасний стан машинного навчання, ні статистика недостатньо зрілий, щоб чудово це усвідомити. Але з часом я думаю, що одна повинна стати підгалуззю іншої. Я думаю, що саме ML повинен потрапити під статистику.

Я особисто думаю, що "навчання" та "аналіз вибірок" для оцінки / висновку функцій чи прогнозів - це по суті питання статистики.


3
Чи повинні біологія, психологія та соціологія також бути "підгалузями" фізики?
амеба

Право .. Психологія - це лише введення / вихід із залученням дуже складних біологічних машин. Одного разу нам може знадобитися відправити свої машини до психолога, щоб діагностувати його помилки (сам психолог може бути комп’ютером).
печерний чоловік

1
Мені здається, що математика - батько всіх. Звідти ми застосували математику, з якої походить фізика та інші речі. Статистика - одна з таких. Я думаю, що ML не має потреби бути галуззю самостійно, а замість цього вписатись у статистику. Але якщо ML стає власною галуззю, я вважаю за краще це дочірня / підгалузь статистики.
печерний чоловік

4

З курсу Coursera "Наука даних у реальному житті" Брайана Каффо

Машинне навчання

  • Підкресліть прогнози
  • Оцінює результати за допомогою прогнозування
  • Побоювання щодо переозброєння, але не складності моделі як такої
  • Акцент на продуктивність
  • Узагальненість отримується завдяки продуктивності на нових наборах даних
  • Зазвичай не вказана модель надпопуляції
  • Турбота про продуктивність та надійність

Традиційний статистичний аналіз

  • Підкреслює умовиводи суперпопуляції
  • Зосереджується на апріорних гіпотезах
  • Простіші моделі віддають перевагу перед складними (парсимування), навіть якщо більш складні моделі працюють трохи краще
  • Акцент на інтерпретацію параметрів
  • Статистичне моделювання чи вибіркові припущення з'єднує дані для населення, яке цікавить
  • Занепокоєння щодо припущень та надійності

-5

Щодо комп'ютерного вченого, мене завжди заінтригує погляд на статистичні підходи. Мені багато разів здається, що статистичні моделі, використовувані в статистичному аналізі, є занадто складними для даних у багатьох ситуаціях!

Наприклад, існує міцний зв’язок між стисненням даних та статистикою. В основному потрібна гарна статистична модель, яка здатна добре передбачити дані, і це приносить дуже гарне стиснення даних. В інформатиці при стисненні даних завжди важливі складність статистичної моделі та точність прогнозування. Ніхто не хоче отримувати, щоб КОГО-небудь файл даних (що містить звукові дані або дані зображення або відеодані) зростає після стиснення!

Я вважаю, що в інформатиці є більш динамічні речі щодо статистики, як, наприклад, Мінімальна довжина опису та Нормована максимальна ймовірність .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.