Коли лінійну регресію слід назвати "машинним навчанням"?


90

У недавньому колоквіумі реферат доповідача стверджував, що вони використовують машинне навчання. Під час бесіди єдиним, що стосується машинного навчання, було те, що вони виконують лінійну регресію за своїми даними. Після обчислення коефіцієнтів найкращого пристосування в просторі параметрів 5D вони порівняли ці коефіцієнти в одній системі з коефіцієнтами найкращого пристосування інших систем.

Коли відбувається лінійне регресійне машинне навчання , на відміну від простого пошуку найкращої лінії? (Чи було оманливе реферат дослідника?)

Незважаючи на те, що останнім часом машинне навчання привертає увагу, важливо зробити такі відмінності.

Моє запитання подібне до цього , за винятком того, що це запитання задає визначення "лінійної регресії", тоді як моє запитує, коли лінійну регресію (яка має велику кількість застосувань) можна відповідним чином назвати "машинним навчанням".

Роз'яснення

Я не запитую, коли лінійна регресія збігається з машинним навчанням. Як зазначали деякі, єдиний алгоритм не є полем дослідження. Я запитую, коли правильно сказати, що людина робить машинне навчання, коли алгоритм використовується, - це просто лінійна регресія.

Всі жарти в сторону (див коментарів), одна з причин , чому я задаю це питання , тому що це неетично сказати , що один роблять машинне навчання , щоб додати кілька золотих зірок на ваше ім'я , якщо вони не дійсно роблять машинне навчання. (Багато вчених обчислити певний тип максимальної відповідності умовам лінії для своєї роботи, але це не означає , що вони роблять машинне навчання.) З іншого боку, існують ситуації , коли чітко лінійна регресія в даний час використовується як частина машинного навчання. Я шукаю експертів, які допоможуть мені класифікувати ці ситуації. ;-)


13
Можливо, ви хочете побачити тему: " Дві культури: статистика проти машинного навчання? ".
usεr11852

75
Ви повинні перейменувати свою регресію як "машинне навчання", коли ви хочете подвоїти збори на вашій тарифній картці.
Sycorax

3
Є різниця. Навчання - це процес. Найкраще підійде мета. Дивіться мою відповідь нижче. Відверто кажучи, слова не мають однакового значення, хоча слова можуть з'являтися в тому ж контексті, як "птахи літають", їх можна пов'язувати, але птахи не є польотами, і хоча літають саме для птахів, це для F -18 винищувачів також.
Карл

20
@Sycorax та глибоке навчання, коли ти хочеш вчетверо
Franck Dernoncourt

11
@FranckDernoncourt "Я науковець, що використовує глибоке навчання у середовищі великих даних для вирішення проблем машинного навчання" звучить як приємний заголовок для профілю LinkedIn;)
Тім

Відповіді:


78

Відповідаючи на запитання питанням: що саме таке машинне навчання? Тревор Хасті, Роберт Тібширані та Джером Фрідман в елементах статистичного навчання , Кевін П. Мерфі в машинному навчанні ймовірнісної перспективи , Крістофер Єпископ з розпізнавання образів та машинного навчання , Іан Гудфелло, Йошуа Бенджо і Аарон Курвіль у глибокому навчанні та ряд інших інші "біблії" машинного навчання згадують лінійну регресію як один із "алгоритмів машинного навчання". Машинне навчання частково є модним словом для прикладної статистики, і різниця між статистикою та машинним навчанням часто нечітка.


4
Правда, але вони в значній мірі є дисциплінованими дисциплінами з великою кількістю літератури, методів та алгоритмів, що не збігаються. Наприклад, у сучасному світі машинного навчання, даних та інформатики є випереджаючими кандидатів у галузі статистики за рівнем фінансування, грантів та робочих місць.
Майк Хантер

6
@DJohnson, так що це застосовується статистика з новим пакетом, що продається за більш високою ціною ..? Я не думаю, що те, що це модно, не робить це казковим словом. Байєсівська статистика також має свої методи, журнали, конференції, довідники та додатки, які частково не збігаються з класичною статистикою - чи робить це дисципліною, відмінною від статистики?
Тім

3
Так. Я знехтував зауважити своє спостереження щодо практикуючих ЛЗ з більш загальним спостереженням, що оперуючі, вузько орієнтовані практикуючі є ендемічними для будь-якої галузі та професії, а не лише для МЛ. Це свого роду професійний ризик - читай людський недолік - що люди роблять сліпими для інформації, що виходить за їхні найближчі потреби та інтереси. Резюме не є винятком із цього.
Майк Хантер

23
(+1) Я згоден, немає чіткого розрізнення. Наскільки я вважаю різницею, я, як правило, вважаю ML як більш стурбованим прогнозами , а статистику як більш стурбованою виведенням параметрів (наприклад, експериментальна конструкція для моделювання поверхні відповіді не була б типовою для ML?). Тож у цьому сенсі приклад ОП - де коефіцієнти регресії, як видається, викликають найбільше занепокоєння - був би більш "схожим на статистику" (?)
GeoMatt22

3
Дивіться також Дві культури Лео Бреймана, що робить точку подібною до культури @ GeoMatt22: ML зосереджується на точному прогнозуванні. Чи справжня модель справжня, не важливо. Класична статистика шукає в певному сенсі «справжню» модель або, принаймні, модель, яка дає деяке розуміння процесів, які виробляли дані.
Петро

41

Лінійна регресія - це безумовно алгоритм, який можна використовувати в машинному навчанні. Але, reductio ad absurdum : кожен, хто має копію Excel, може підходити до лінійної моделі.

Навіть обмежуючи себе лінійними моделями, є ще кілька речей, які слід враховувати, обговорюючи машинне навчання:

  • Машинне навчання з бізнес-проблем може залучати набагато більше даних. " Великі дані ", якщо ви хочете використовувати модне слово. Чистка та підготовка даних може зайняти більше роботи, ніж власне моделювання. А коли обсяг даних перевищує можливості однієї машини для їх обробки, то інженерні проблеми є такими ж важливими, як і статистичні проблеми. (Велике правило: якщо воно вписується в основну пам'ять, це не великі дані).
  • Машинне навчання часто передбачає набагато більше пояснювальних змінних (особливостей), ніж традиційні статистичні моделі. Можливо, їх десятки, іноді навіть сотні, деякі з яких будуть категоричними змінними з багатьма рівнями. Коли ці функції можуть потенційно взаємодіяти (наприклад, в моделі перехресних ефектів), кількість потенційних моделей, які підлягають прискоренню, швидко зростає.
  • Практикуючий з машинного навчання, як правило, менше переймається важливістю індивідуальних особливостей, і більше стурбований тим, щоб витіснити якомога більше прогностичної сили з моделі, використовуючи будь-яку комбінацію особливостей. (Р-значення пов'язані з поясненням, а не передбаченням.)
  • Завдяки великій кількості функцій та різних способів побудови цих функцій вибір моделі вручну стає нездійсненним. На мою думку, справжньою проблемою в машинному навчанні є автоматизований вибір функцій (інженерія функцій) та інші аспекти специфікації моделі. З лінійною моделлю існують різні способи цього, зазвичай це варіанти грубої сили; включаючи поетапну регресію, усунення назад тощо, всі вони знову потребують значних обчислювальних можливостей. (Друге правило: якщо ви вибираєте функції вручну, ви робите статистику, а не машинне навчання).
  • Коли ви автоматично підганяєте багато моделей з багатьма функціями, перевиконання є серйозною проблемою. Розв’язання цієї проблеми часто передбачає певну форму перехресної перевірки : тобто, ще більш обчислення грубої сили!

Коротка відповідь, з моєї точки зору, полягає в тому, що там, де машинне навчання відхиляється від традиційного статистичного моделювання, полягає у застосуванні грубої сили та чисельних підходів до вибору моделі, особливо в областях з великою кількістю даних та великою кількістю пояснювальних змінних , з акцентом на передбачувальну силу, з подальшим більшою грубою силою для перевірки моделі.


2
Мені подобається ця відмінність взагалі. Однак чи взагалі колись застосовується перехресна перевірка у "статистичних" моделях чи це рідко потрібно, як це зазвичай робиться вручну? Чи тоді інженерія функцій вважається статистикою, як це робиться вручну?
Джош

3
@josh, Так, так може бути. Але якщо поглянути на тест перехресної перевірки, майже всі питання стосуються прогнозного моделювання.
david25272

@ david25272 Мені було б цікаво, як ти думаєш про завантажувальний запуск, .632+ завантажувальний тест та тести перестановки - я завжди вважав їх більш "прикладною статистикою", ніж "машинним навчанням" через те, як вони мотивовані, але вони аналогічно "грубої сили" для k-згортання або виходу з перехресної перевірки. Я думаю, що регуляризацію L1 також можна розглядати як тип вибору ознак у статистичних рамках ...
Патрік Б.

@Patrick stats.stackexchange.com/questions/18348 - це краща відповідь щодо використання завантажувального процесу для перевірки моделі, ніж я міг би дати.
david25272

@ david25272 ах, вибачте, моє запитання було більше, чи ви вважаєте їх методами "машинного навчання" чи "прикладними методами статистики", оскільки вони є статистично мотивованими, але також "грубою силою". Мені добре знайоме використання завантажуваних моделей завантаження для перевірки моделі.
Патрік Б.

14

Я думаю, що визначення Мітчелла дає корисний спосіб обґрунтувати обговорення машинного навчання, свого роду перший принцип. Як відтворено у Вікіпедії :

Кажуть, що комп'ютерна програма вивчає досвід Е щодо деякого класу завдань Т та показник ефективності Р, якщо його ефективність у завданнях Т, виміряна Р, покращується з досвідом Е.

Це корисно кількома способами. По-перше, до вашого безпосереднього запитання: Регресія - це машинне навчання, коли її завдання полягає в тому, щоб надати оціночне значення за допомогою прогнозних функцій у деякому застосуванні. Його продуктивність повинна покращитися, вимірюється середнім квадратом (або абсолютним і т. Д.), Що несе помилку, оскільки в ній виникає більше даних.

По-друге, це допомагає розмежувати машинне навчання від суміжних термінів та його використання в якості маркетингового слова. Порівнюйте вищезазначене завдання зі стандартною, інфекційною регресією, де аналітик інтерпретує коефіцієнти для значущих взаємозв'язків. Тут програма повертає резюме: коефіцієнти, p-значення тощо. Програма не може сказати, що покращує цю ефективність із досвідом; завдання - ретельний розрахунок.

Нарешті, це допомагає уніфікувати підполя машинного навчання, як ті, що зазвичай використовуються у вступній експозиції (під наглядом, без нагляду) з іншими, такими як навчання підкріплення або оцінка щільності. (У кожного є завдання, міра ефективності та концепція досвіду, якщо ви досить добре подумаєте про них.) Це, я думаю, дає більш багате визначення, яке допомагає розмежувати ці два поля без зайвого зменшення жодного. Наприклад, "ML є для прогнозування, статистики для висновку" ігнорує як методи машинного навчання поза контрольованим навчанням, так і статистичні методи, орієнтовані на прогнозування.


12

Не існує закону, який би стверджував, що виробник шафи не може використовувати пилку для виготовлення бочок.

Машинне навчання та статистика - це невизначені мітки, але якщо їх чітко визначено, між статистикою та машинним навчанням багато перетинається. І це стосується методів цих двох областей, а також (і окремо) для людей, які позначають себе цими двома областями. Але що стосується математики, машинне навчання повністю входить у сферу статистики.

Лінійна регресія - це дуже чітко визначена математична процедура. Я схильний асоціювати це з областю статистики та людьми, які називають себе "статистиками" та тими, хто виходить з академічних програм з мітками типу "статистика". SVM (Support Vector Machines) також є дуже чітко визначеною математичною процедурою, яка має кілька подібних входів і виходів і вирішує подібні проблеми. Але я, як правило, пов'язую це з областю машинного навчання та людьми, які називають себе комп'ютерними науковцями або людьми, які працюють у сфері штучного інтелекту чи машинного навчання, які, як правило, вважаються частиною інформатики як дисципліною.

Але деякі статистики можуть використовувати SVM, а деякі AI використовують логістичну регресію. Щоб було зрозуміло, більш імовірно, що статистик або дослідник ШІ розробив би метод, ніж насправді застосував його для практичного використання.

Я вкладаю всі методи машинного навчання прямо в область статистики. Навіть такі недавні речі, як «глибоке навчання», RNN, CNN, LSTM, CRF. Прикладний статистик (біостатист, агроном) цілком може не знати їх. Це всі методи прогнозування моделювання, як правило, позначені "машинним навчанням" і рідко пов'язані зі статистикою. Але вони є прогнозними моделями, з урахуванням того, що їх можна судити за допомогою статистичних методів.

Зрештою, логістичну регресію слід вважати частиною машинного навчання.

Але, так, я бачу і часто поділяю ваше неприємність щодо неправильного застосування цих слів. Лінійна регресія - це настільки фундаментальна частина речей, яку називають статистикою, що її використання називається "машинне навчання" дуже дивно і вводити в оману .

Для ілюстрації, логістична регресія математично ідентична мережі глибокого навчання без прихованих вузлів і логістичної функції як функції активації для одного вихідного вузла. Я б не назвав логістичну регресію методом машинного навчання, але він, безумовно, використовується в контекстах машинного навчання.

Це здебільшого питання очікування.

Відповідь: "Я використовував машинне навчання, щоб передбачити реадмісію до лікарні після операції на серці".

Б: "О так? Глибоке навчання? Випадкові ліси? !!?"

Відповідь: "О, ні, нічого такого вигадливого, як логістична регресія".

Б: надзвичайно розчарований вигляд .

Це як сказати, миючи вікно водою, що ви використовуєте квантову хімію. Ну так, певно, що це технічно не так, але ви маєте на увазі набагато більше, ніж потрібно.

Але насправді, це саме різниця в культурі та різниця між речовинами. Конотації слова та асоціації з групами людей (LR - це зовсім не ML!) Та математика та додатки (LR - це повністю ML!).


3
Логістична регресія також дуже схожа, практично і теоретично, на SVM: web.stanford.edu/~hastie/Papers/svmtalk.pdf
Патрік Б.

3

Поширена думка, що машинне навчання складається з 4-х областей:

1) Зменшення розмірності

2) Кластеризація

3) Класифікація

4) Регресія

Лінійна регресія - це регресія. Як тільки модель буде навчена, її можна буде використовувати для прогнозування, як і будь-яка інша, скажімо, випадкова регресія лісу.


Насправді є різниця, хоча лінійну регресію можна вирішити за допомогою машинного навчання. Загальна ціль регресії - звичайні найменші квадрати, а це означає, що наша цільова функція втрат, сума залишків у квадраті, повинна бути зведена до мінімуму. Тепер машинне навчання просто посилається на той метод, за допомогою якого ми мінімізуємо функцію втрат.
Карл

Таким чином, концептуально лінійна регресія за допомогою градієнтного спуску (навчання) вибирає кращі та краще підсумовані квадратні залишки (функція втрат). Основні поняття такі ж, як і для набагато досконаліших алгоритмів навчання, таких як нейронні мережі. Ці алгоритми просто замінюють лінійну модель набагато складнішою моделлю - і, відповідно, набагато складнішою вартісною функцією. .
Карл

1
Тож відповідь на питання ОП Коли відбувається лінійне регресійне машинне навчання, на відміну від простого пошуку найкращої лінії? Коли лінійна регресія виконується з використанням визначеного елемента машинного навчання, наприклад градієнтного спуску , то лінійна регресія виконується за допомогою машинного навчання.
Карл

5
@Carl, проблема тут у тому, що "машинне навчання" визначено. Для мене, якщо ми можемо використовувати статистичну модель, і ця модель зможе передбачити, що це машинне навчання. І не має значення, який підхід використовувався для пошуку коефіцієнтів моделі.
Акавал

1
Я вважав відповідь Акавала досить чітким. Я вважаю, що проблема Akavall полягає в тому, що визначення, яке ви представляєте, є круговим, оскільки воно, схоже, зводиться до "Q: коли техніка X вважається" машинним навчанням "? A: коли техніка X виконується з використанням визначеного елемента машинного навчання". (На жаль, я не розумію другого моменту, який ти робиш, тому я не можу на це відповісти.)
Патрік Б.

2

Лінійна регресія - це техніка, а машинне навчання - мета, яку можна досягти різними засобами та прийомами.

Отже, ефективність регресії вимірюється тим, наскільки вона відповідає очікуваній лінії / кривій, а машинне навчання вимірюється тим, наскільки добре вона може вирішити певну проблему, будь-якими засобами, необхідними.


2

Я стверджую, що різниця між машинним навчанням та статистичним висновком є ​​чіткою. Словом, машинне навчання = прогнозування майбутніх спостережень; статистика = пояснення.

Ось приклад з моєї сфери інтересів (медицини): при розробці лікарського засобу ми шукаємо ген (и), які найкраще пояснюють стан хвороби, з метою націлювання на них / їх з препаратом. Для цього ми використовуємо статистику. На відміну від цього, наприклад, при розробці діагностичних тестів, наприклад, передбаченні того, чи допоможе препарат пацієнту, мета полягає в тому, щоб чітко знайти найкращого провісника майбутнього результату, навіть якщо він містить багато генів і занадто складний для розуміння. Для цього ми використовуємо машинне навчання. Існує кілька опублікованих прикладів [1], [2], [3], [4], які показують, що наявність цільового препарату не є хорошим прогнозувачем результатів лікування, отже, відмінність.

Виходячи з цього, справедливо можна сказати, що людина робить машинне навчання, коли мета строго прогнозує результат майбутніх / раніше небачених спостережень. Якщо метою є розуміння конкретного явища, то це статистичний висновок, а не машинне навчання. Як зазначали інші, це справедливо незалежно від методу.

Щоб відповісти на ваше запитання: в конкретному дослідженні, яке ви описуєте, вчені порівнювали факторні ролі (ваги) в різних моделях лінійної регресії, не порівнюючи точності моделі. Тому називати їх висновком машинне навчання не точно.

[1] Messersmith WA, Ahnen DJ. Орієнтація EGFR при колоректальному раку. Журнал медицини Нової Англії; 2008 р .; 359; 17.

[2] Pogue-Geile KL та ін. Прогнозування ступеня вигоди від ад'юванта Трастузумаба в НБАБП судового розгляду B-31. J Natl Рак Інст; 2013 рік; 105: 1782-1788.

[3] Паздур Р. Схвалення FDA щодо Вемурафенібу. https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . Оновлено 3 липня 2013 року.

[4] Рей Т. Два дослідження ASCO показують виклик використання сигналу MET, як маркера прогнозування, у випробуваннях на наркотики NSCLC. GenomeWeb, 11 червня 2014 року.


7
Я погоджуюсь, що дослідження машинного навчання значно сильніше акцентують на прогнозах щодо оцінки параметрів. Але це не чіткий розподіл: дослідження статистики багаті методами прогнозування.
Кліф АВ

4
То що робити зі статистиками, які прогнозували раніше існування комп'ютерів (або були широкодоступними)? Чи застосовували машинне навчання з паперу та олівця ?!
Тім

1
@Tim: дуже тонкий аргумент. Я вважаю, що відповідь "так", якби вони були зосереджені на майбутніх спостереженнях, хоча я визнаю, що в тих (рідкісних) випадках назва статистичного навчання була б більш доречною. З появою комп’ютерів термін машинного навчання став більш модним. Справа не в назві, ані у використанні комп’ютерів; це чіткість мети. На мій погляд, практично неможливо успішно оптимізувати як точне прогнозування раніше небачених спостережень, так і розуміння явища. Краще орієнтуватися належним чином.
любомир

4
Прогнозування часових рядів (прогнозування майбутнього спостереження) давно було популярною проблемою у статистиці (та економетрії), тому я не погоджуюся з чітким розмежуванням на основі цього.
Річард Харді

1
Ця відповідь є хибною. Прогнозування - лише одна невелика частина машинного навчання. Також статистики роблять прогнози. Хоча важко розмежувати машинне навчання та статистику, але це, безумовно, не правильний шлях.
розбійність

2

Це може бути корисно називати лінійним регресійним машинним навчанням, оскільки це, як правило, означає кілька важливих речей щодо того, як ви вирішили вирішити свою проблему:

  1. Ви вирішили, що не потрібно перевіряти причинно-наслідкові припущення та попередню теорію за своїми пояснювальними змінними. Це сигналізує про те, що ваша модель розрахована не на роз'яснення, а на прогнозування. Це цілком розумно в багатьох налаштуваннях, наприклад, передбачення спаму електронної пошти на основі ключових слів. Насправді не так багато літератури, в якій слова пророкують спам, і є так багато слів, що не має сенсу продумати теоретичну значимість кожного слова
  2. Ви не перевіряли значущість змінної та не використовували p-значень, але натомість, ймовірно, вибрали набір затримань або перехресну перевірку для оцінки прогнозованої ефективності поза вибіркою. Це може бути цілком справедливим, якщо - повернутися до прикладу спаму електронної пошти - якщо насправді все, що вам цікаво, - це створити модель, яка ефективно прогнозує спам, навіть якщо це відбувається ціною включення змінних, які можуть не пройти традиційні тести на значимість.

Однак, якщо ваша модель більше призначена для пояснення, ніж прогнозування, і ви ретельно перевіряєте теоретичні причинно-наслідкові припущення вашої моделі тощо, то так, це досить нерозумно називати це машинним навчанням.


2

Справді, будь-яка відповідь на це питання - це скоріше думка, ніж об'єктивний факт, але я спробую викласти свою логіку, чому я вважаю, що відповідь ніколи . Будь-який так званий експерт з машинного навчання або викладач виявляє лише своє незнання, представляючи лінійну регресію як таку.

Розмежування навчальних дисциплін більше стосується розмежування спільнот, ніж методів. Наукові дисципліни весь час запозичують методи з різних дисциплін. Також у 19 столітті (коли розроблялася лінійна регресія) і до цього наукові дисципліни не були так чітко окреслені, як сьогодні. Тому, особливо, коли методи розроблялися в 19 столітті чи раніше, ми повинні бути обережними, щоб віднести їх до певної дисципліни.

Якщо говорити, то можна подивитися на історію дисципліни і обгрунтовано зробити висновок, що конкретні методи "належать" до тієї чи іншої дисципліни. Сьогодні ніхто не скаже, що числення належить до галузі фізики, навіть незважаючи на те, що Ньютон, який був одним із винахідників числення, безумовно намагався застосувати це до фізики. Обчислення явно належить до дисципліни математики, а не фізики. Це пояснюється тим, що обчислення - це загальний математичний метод, який можна використовувати повністю поза контекстами фізики.

За тими ж міркуваннями, лінійна регресія належить до дисципліни статистики, хоча вона зазвичай використовується як простий приклад пристосування даних до моделі в контексті машинного навчання. Так само, як числення можна використовувати поза контекстом фізики, лінійна регресія може (і використовується) поза контекстом машинного навчання.

Викладачів машинного навчання було б розумно зазначити, що лінійна регресія застосовується з кінця 19 століття задовго до появи сучасного поняття машинного навчання. Вони також повинні підкреслити, що машинне навчання використовує багато понять з імовірності та статистики, а також інших дисциплін (наприклад, теорія інформації). Однак ці поняття самі по собі не являють собою машинне навчання або "алгоритм" машинного навчання.


1

Це машина, дурний!

Я не є ні статистиком, ні експертом з великих даних (TM). Однак я б сказав, що суттєвою відмінністю є те, що "машинне навчання" вимагає "машини". Зокрема, це передбачає агентство . Результат людина не споживає неквапливо. Швидше, результатом стане вхід до замкнутого циклу, завдяки якому автоматизована система покращує свою продуктивність.

Закрита система

Це дуже відповідає відповіді Шона Пасха, але я просто хочу наголосити, що в комерційних програмах машина переглядає результати та діє на них . Класичний приклад - алгоритм CineMatch, який був ціллю премії Netflix. Людина могла подивитися на вихід CineMatch та дізнатися цікаві функції про глядачів кіно. Але це не тому, що існує. Мета CineMatch - створити механізм, за допомогою якого сервери Netflix можуть пропонувати клієнтам фільми, які їм сподобаються. Вихід статистичної моделі надходить у службу рекомендацій, яка в кінцевому підсумку дає більше вкладів, оскільки клієнти оцінюють фільми, деякі з яких були обрані за порадою CineMatch.

Відкрита система

З іншого боку, якщо дослідник використовує алгоритм для отримання статистичних результатів, які відображаються у презентації іншим людям, то цей дослідник, як правило, не займається машинним навчанням . Це, цілком очевидно, для мене навчання людини . Аналіз виконується машиною, але сам по собі це не машина, яка займається навчанням . Тепер це "машинне навчання" настільки, що людський мозок не відчував усіх вибірок та отримав статистичні результати "біологічно". Але я б назвав це "статистикою", тому що саме це роблять статистики з часу винайдення галузі.

Висновок

Таким чином, я відповів би на це запитання, запитуючи: "Хто споживає результати?" Якщо відповідь: «люди», то це «статистика». Якщо відповідь: "програмне забезпечення", то це "машинне навчання". І коли ми говоримо, що "програмне забезпечення споживає результати", ми не маємо на увазі, що воно зберігає його десь для подальшого пошуку. Ми маємо на увазі, що вона виконує поведінку, яка визначається результатами в замкнутому циклі .


8
Це розумний момент, але я думаю, що на практиці моделі ML часто передаються людям для інтерпретації та роботи.
gung

1
Я б сказав, це тому, що ML як поле породило різноманітні корисні інструменти, якими користуються статистики , навіть якщо це не те, що вони хочуть назвати, для маркетингових цілей. ;)
Газонокосарка Чоловік

Я повністю погоджуюся з @gung; подібно до інших відповідей, я погоджуюся, що це частіше мотивація людей, які називають себе "дослідниками ML", це, безумовно, не визначальна лінія. Два зустрічні приклади: системи рекомендацій вважаються областю досліджень ML, але результати передаються безпосередньо людині. Фільтри Кальмана дуже часто використовуються в навігації для автопілота, без людини в циклі, але, як правило, вважаються методологією статистики.
Cliff AB

-1

На мою думку, про машинне навчання можна говорити, коли машина запрограмована для виведення параметрів якоїсь моделі за допомогою деяких даних.

Якщо лінійна регресія проводиться машиною, то вона кваліфікується.

Якщо робити вручну, то це не так.

На мою думку, визначення, які залежать від поширеності якогось агента (наприклад, Excel), або ітеративного вдосконалення (як пропонує Шон Пасха вище), якимось чином намагаються відокремити його від статистики або залежно від того, що робити з результатами .


3
Отже, якщо ви обчислюєте регресію, чи kNN, чи дерево рішень, використовуючи папір та олівець, і отримуєте ті самі результати, що й обчислені на комп’ютері, то в першому випадку це було б машинне навчання, а в другому ні ..? З іншого боку, якщо ви використовуєте комп'ютер для випадкового призначення деяких значень як "параметрів" вашої моделі, то ви б кваліфікували це як машинне навчання, оскільки це було зроблено машиною? Це визначення, схоже, не має особливого сенсу ...
Тім

Ви навряд чи можете це назвати машинним навчанням, якщо не використовуєте машину. Це саме машина, яка вчиться. І я фактично розгорнув моделі, які "дізналися" їх параметри випадковим (Монте-Карло) процесом. Однак я мушу визнати, що після цього був здійснений крок перевірки.
Іцен де Бур

2
Алгоритми як опорні вектори машина називається «машина» з історичних причин, так як в перші дні люди повинні будувати реальні машини / комп'ютери для запуску їх ( stats.stackexchange.com/questions/261041 / ... ), це не має ніякого відношення до робити з "алгоритмами, які працюють на машинах". Крім того, модель часових рядів , як ARIMA є НЕ в рамках машинного навчання, але статистичних даних, і вони будуть працювати на комп'ютерах.
Тім
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.