Яка «основна» ідея машинного навчання для оцінки параметрів?


19

"Основна" ідея статистики для оцінки параметрів - максимальна ймовірність . Мені цікаво, яка відповідна ідея в машинному навчанні.

Qn 1. Було б справедливо сказати, що "фундаментальною" ідеєю в машинному навчанні для оцінки параметрів є: "Функції втрати"

[Примітка. Мені здається, що алгоритми машинного навчання часто оптимізують функцію втрат і, отже, вищезазначене питання.]

Qn 2: Чи є література, яка намагається усунути розрив між статистикою та машинним навчанням?

[Примітка: Можливо, шляхом пов’язання функцій втрат з максимальною ймовірністю. (наприклад, OLS еквівалентна максимальній ймовірності для нормально розподілених помилок тощо)]


3
Я не бачу інтересу в цих питаннях щодо спроби усунути вигаданий пробіл. яка мета всього цього? крім того, існує багато інших ідей, які є основоположними в статистиці ... а функція втрат принаймні 100 років. чи можете ви зменшити статистику так? можливо, ваше запитання стосується фундаментальної концепції в області передачі даних / статистики / машинного навчання, однак ви її називаєте ... Тоді питання вже існує і занадто широка статистика.stackexchange.com/questions/372/… .
Робін Жирард

Ну, я мало знаю про машинне навчання чи його зв’язки зі статистикою. У будь-якому випадку, подивіться на це питання: stats.stackexchange.com/questions/6/…, що говорить про те, що принаймні, що підходи до відповіді на ті самі питання різні. Це "неприродно" дивуватися, чи існує якась зв’язок між ними? Так, я згоден, що в статистиці є багато ідей. Ось чому я маю фундаментальне значення в цитатах і обмежив область оцінки параметрів, що цікавлять.

@Srikant зв’язок між чим? зауважте, що мені дуже подобається шукати зв’язок між чітко визначеними об'єктами, я вважаю це дійсно природним.
Робін Жирард

6
Оскільки, мабуть, машиніст, я тут, щоб сказати, що ми максимізуємо хек з імовірностей. Весь час. Вантажі паперів для машинного навчання починаються з "ей, подивись на мою ймовірність, подивись, як вона розбивається, дивись, як я максимізую". Я б припустив, що небезпечно претендувати на фундаментальну основу будь-якої дисципліни з точки зору техніки виведення. Це більше про те, на яку конференцію ви їдете!
Майк Дьюар

6
Я не думаю, що байєси погодилися б з максимальною ймовірністю бути основною ідеєю статистики.
Marc Claesen

Відповіді:


17

Якщо статистика стосується максимальної ймовірності, то машинне навчання - це все, щоб мінімізувати втрати. Оскільки ви не знаєте втрати, яку ви понесете на майбутніх даних, ви мінімізуєте наближення, тобто емпіричну втрату.

Наприклад, якщо у вас є завдання прогнозування і оцінюється за кількістю прокласифікованих класифікацій, ви можете тренувати параметри так, щоб результатна модель створювала найменшу кількість підстав для класифікаційних даних. "Кількість неправильних класифікацій" (тобто втрата 0-1) - це важка функція втрат, з якою можна працювати, тому що вона не відрізняється, тому ви наближаєте її до гладкого "сурогату". Наприклад, втрата журналу є верхньою межею втрати 0-1, тому ви можете мінімізувати це натомість, і це виявиться таким же, як максимізація умовної вірогідності даних. З параметричною моделлю цей підхід стає рівнозначним логістичній регресії.

У структурованому завданні моделювання та наближенні втрат журналу до втрат 0-1 ви отримуєте щось відмінне від максимальної умовної ймовірності, замість цього ви максимізуєте добуток (умовної) граничної ймовірності.

Для кращого наближення збитків люди помітили, що модель навчання мінімізації втрат та використання цієї втрати як оцінки майбутньої втрати є надмірно оптимістичною оцінкою. Таким чином, для більш точного (справжнього зниження майбутніх втрат) вони додають термін корекції зміщення до емпіричних втрат і мінімізують це, це відоме як структуроване мінімізація ризику.

На практиці з'ясування правильного терміна виправлення зміщення може бути занадто важким, тому ви додаєте вираз "у дусі" терміна виправлення зміщення, наприклад, суму квадратів параметрів. Зрештою, майже всі параметричні підходи до класифікації під наглядом машинного навчання закінчують навчання моделі, щоб мінімізувати наступне

iL(m(xi,w),yi)+P(w)

де - ваша модель, параметризована вектором w , я приймається за всі точки даних { x i , y i } , L - деяке обчислювальне приближення вашої справжньої втрати, а P ( w ) - деякий термін корекції зміщення / регуляризаціїmwi{xi,yi}LP(w)

Наприклад, якщо ваш , y { - 1 , 1 } , типовим підходом буде нехай m ( x ) = знак ( w x ) , L ( m ( x ) , y ) = - log ( y × ( x w ) ) , P (x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw)) і вибираємо q шляхом перехресної перевіркиP(w)=q×(ww)q


3
Я хотів би побачити, як ця втрата мінімізується в кластеризації, kNN або випадкових папоротях ...

Ну а про характеристику функції втрат k-засобів найближчого сусіда дивіться у відповідному підрозділі (2.5) цієї статті: hpl.hp.com/conferences/icml2003/papers/21.pdf
Джон Л. Тейлор

@John Все ж це змішування цілей з причинами. Значною мірою ви можете пояснити кожен алгоритм з точки зору мінімізації чогось і назвати це чимось "втратою". kNN не був винайдений таким чином: Хлопці, я думав про втрату, як це, давайте оптимізуємо її і подивимося, що буде !; радше, хлопці, скажімо, що рішення є менш безперервним у просторі можливостей, тоді, якби ми мали хороший показник подібності ... і так далі.

2
"Якщо статистика стосується максимальної ймовірності, то машинне навчання - це все, щоб мінімізувати збитки", я не погоджуюся з вашими передумовами - рішуче і в повному обсязі. Можливо, це було справжньою статистикою в 1920 році, але це, звичайно, не сьогодні.
JMS

19

Я дам деталізовану відповідь. Може надати більше цитат на вимогу, хоча це насправді не суперечливо.

  • Статистика - це не все щодо максимальної ймовірності (log). Це анафема для принципових баязів, які просто оновлюють своїх плакатів або поширюють свої переконання за допомогою відповідної моделі.
  • Багато статистики є відносно мінімізації втрат. І так багато машинного навчання. Емпірична мінімізація втрат має різний зміст у ML. Для чіткого, оповідного погляду перегляньте "Природу статистичного навчання" Вапніка
  • Машинне навчання - це не все про мінімізацію втрат. По-перше, тому, що в ML є багато байесів; по-друге, тому що ряд застосувань в ML пов'язаний з тимчасовим навчанням та приблизним DP. Звичайно, є об'єктивна функція, але вона має зовсім інше значення, ніж у "статистичному" навчанні.

Я не думаю, що між полями є розрив, просто багато різних підходів, які певною мірою перекриваються. Я не відчуваю необхідності перетворювати їх на систематичні дисципліни з чітко визначеними відмінностями та подібністю, а враховуючи швидкість, з якою вони розвиваються, я думаю, що це все одно приречене підприємство.


8

Я не можу розмістити коментар (відповідне місце для цього коментаря), оскільки мені не вистачає репутації, але відповідь, прийнята як найкраща відповідь власника питання, не вистачає суті.

"Якщо статистика стосується максимальної ймовірності, то машинне навчання - це все, щоб мінімізувати втрати."

Ймовірність є функцією втрат. Максимізація ймовірності - це те саме, що мінімізувати функцію втрат: відхилення, яке в 2 рази перевищує функцію вірогідності журналу. Аналогічно пошук рішення з найменшими квадратами полягає у мінімізації функції втрат, що описує залишкову суму квадратів.

І ML, і статистика використовують алгоритми для оптимізації придатності певної функції (в найширшому розумінні) до даних. Оптимізація обов'язково включає мінімізацію деякої функції втрат.


1
Хороший момент, все ж основні відмінності десь в іншому місці; по-перше, статистика стосується пристосування моделі до даних, які є, ML - про пристосування моделі до даних, які матиме; по-друге, статистичні дані ВКАЗАТИ, що процес, за яким спостерігається, повністю керується якоюсь невпинно тривіальною «прихованою» моделлю, яку вони хочуть розкопати, в той час як М.Л.

@mbq. Це досить жорстка карикатура на статистику. Я працював у п'яти університетських статистичних відділах, і я не думаю, що я зустрів когось, хто думав би про таку статистику.
Роб Хайндман

1
@Rob Карикатура? Я думаю, що це робить статистику красивою! Ви припускаєте, що всі ці газианці та лінійності, і це просто працює - і в цьому є причина, яку називають розширенням Тейлора. Світ - це пекло складного, але лінійного прибл. (що часто буває дев'яносто-щось% складності) бентежно тривіальне. ML (і непараметрична статистика) потрапляє в цих кількох відсотках ситуацій, коли потрібен дещо тонкий підхід. Це просто не безкоштовний обід - якщо ви хочете теорем, вам потрібні припущення; якщо ви не хочете припущень, вам потрібні приблизні методи.

@mbq. Справедливо. Я, мабуть, неправильно трактував ваш коментар.
Роб Хайндман

4

Є тривіальна відповідь - немає оцінки параметрів у машинному навчанні! Ми не вважаємо, що наші моделі еквівалентні деяким прихованим фоновим моделям; ми ставимося як до реальності, так і до моделі як до чорних коробок і намагаємось похитнути модель моделі (тренуйтесь в офіційній термінології), щоб її вихід був подібний до випуску реальності.

Концепція не тільки вірогідності, але і всього вибору моделі, заснованої на даних тренінгу, замінюється оптимізацією точності (що б не було визначено; в принципі корисністю в бажаному використанні) на небачені дані; це дозволяє оптимізувати як точність, так і пригадування у парі. Це призводить до концепції здатності до узагальнення, що досягається різними способами залежно від типу навчального.

Відповідь на питання два дуже залежить від визначень; все-таки я вважаю, що непараметрична статистика - це те, що поєднує ці два.


Я не впевнений, що це цілком правильно. У якому сенсі працюють методи машинного навчання без оцінки параметрів (у параметричному або безрозподільному наборі моделей)?
Джон Л. Тейлор

1
Ви щось оцінюєте / обчислюєте (точний термін може бути різним). Наприклад, розглянемо нейронну мережу. Ви не обчислюєте ваги для мережі, коли намагаєтесь щось передбачити? Крім того, коли ви говорите, що ви тренуєтеся відповідати виходу реальності, ви, здається, неявно говорите про якусь функцію втрат.

@John, @Srikant Учні мають параметри, але це не параметри в статистичному сенсі. Розглянемо лінійну регресію y = a x (без вільного члена для спрощення). a - параметр, який підходить статистичним методам, подається з припущенням, що y = a x. Машинне навчання просто спробує створити х, коли його попросять x у межах поїзда (це має сенс, оскільки воно не передбачає y = a x); для цього може підійти сотні параметрів.

3
[цитування потрібне]. Іншими словами, інтригуюча відповідь, хоча вона не узгоджується (принаймні) з великою кількістю літератури про ML.
гаппі

1
Класичним є «Статистичне моделювання: дві культури» Бреймана.

2

Я не думаю, що існує принципова ідея щодо оцінки параметрів у машинному навчанні. Натовп МЛ із задоволенням максимізує ймовірність чи задність, доки алгоритми будуть ефективними та прогнозують "точно". Основна увага приділяється обчисленню, і результати статистики широко використовуються.

Якщо ви шукаєте фундаментальні ідеї взагалі, то в теорії обчислювального навчання PAC займає центральне місце; в статистичній теорії навчання структурна мінімізація ризиків ; а також є інші сфери (наприклад, див. Науку про передбачення) посаду Джона Ленгфорда в ").

Що стосується мостикової статистики / МЛ, то розподіл здається перебільшеним. Мені сподобалась відповідь гаппі на питання "Дві культури".


Статистична натовп випадково клацає в SPSS, поки не з’явиться бажане значення p ...

1

Ви можете переписати проблему з максимальною ймовірністю як проблему мінімізації втрат, визначивши втрату як негативну ймовірність журналу. Якщо ймовірність є результатом незалежних ймовірностей чи щільності ймовірності, втрата буде сумою незалежних доданків, які можна обчислити ефективно. Крім того, якщо стохастичні змінні зазвичай розподіляються, відповідна проблема мінімізації втрат буде проблемою з найменшими квадратами.

Якщо можливо створити проблему мінімізації втрат, переписавши максимізацію ймовірності, слід віддати перевагу створенню проблеми мінімізації втрат з нуля, оскільки це породжує проблему мінімізації втрат, що (сподіваємось) більше теоретично обґрунтований і менш спеціальний. Наприклад, ваги, наприклад, у зважених найменших квадратах, для яких зазвичай доводиться здогадуватися, просто вийдуть із процесу переписування вихідної проблеми максимізації ймовірності та вже матимуть (сподіваємось) оптимальні значення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.