Яка різниця між навчанням і умовиводом?


20

Дослідження з машинного навчання часто трактують навчання та умовиводи як два окремі завдання, але мені не зовсім зрозуміло, у чому полягає відмінність. Наприклад, у цій книзі вони використовують статистику Баєса для обох видів завдань, але не дають мотивації для цього розрізнення. У мене є кілька розпливчастих ідей, про що це може бути, але я хотів би побачити чітке визначення, а можливо, також спростування чи розширення своїх ідей:

  • Різниця між висновком значень прихованих змінних для певної точки даних та вивченням відповідної моделі для даних.
  • Різниця між вилученням дисперсій (умовиводів) та вивченням інваріацій так, щоб можна було отримати відхилення (шляхом вивчення динаміки вхідного простору / процесу / світу).
  • Невронауковою аналогією може бути короткочасна потенціація / депресія (сліди пам’яті) проти довгострокової потенціації / депресії.

4
Не впевнений, чи допомагає це, але в статистиці одна різниця між тим, чи хочете ви думати про навчання як висновок (здебільшого Байєса) або як оцінку (переважно частоту). Для перших, вивчення всього - латентних змінних, параметрів, прогнозів, моделей - є висновком (який повертає розподіл). Для останніх деякі проблеми навчання можуть бути висновком, а інші - оцінкою (що повертає оцінку та теоретично мотивований діапазон невизначеності для неї).
кон'югатпріор

5
«Навчання» - лише сприятлива метафора процесу навчання алгоритму машинного навчання. Я не думаю, що тут слід отримати багато розуміння.
Sycorax повідомляє про відновлення Моніки


1
@Winks Ви читали пов'язане запитання взагалі ? Жодна з відповідей не дає чіткого розрізнення, яке я прошу.
Ленар Хойт

1
@conjugateprior У машинному навчанні ніхто не скаже, що "вивчення всього - прихованих змінних, параметрів, прогнозів, моделей - це висновок". Навчання та умовиводи вважаються абсолютно окремими, хоча вони можуть виробляти розподіл.
Ніл G

Відповіді:


11

Я згоден з відповіддю Ніла Г., але, можливо, це альтернативне фразування також допомагає:

Розглянемо налаштування простої моделі суміші Гаусса. Тут ми можемо розглядати параметри моделі як сукупність гауссових компонентів моделі суміші (кожен їх спосіб і відхилення, а також кожен вага в суміші).

Враховуючи набір параметрів моделі, висновок - це проблема ідентифікації того, який компонент, ймовірно, створив єдиний даний приклад, зазвичай у вигляді "відповідальності" за кожен компонент. Тут приховані змінні - це лише єдиний ідентифікатор, для якого компонента генерується даний вектор, і ми робимо висновок про той компонент, який, ймовірно, був. (У цьому випадку висновок простий, хоча у більш складних моделях він стає досить складним.)

Навчання - це процес, заданий набором зразків з моделі, ідентифікуючи параметри моделі (або розподіл за параметрами моделі), які найкраще відповідають даним даним: вибір засобів, відхилень та ваги Гаусса.

Алгоритм навчання очікування-максимізація можна вважати виконанням умовиводу для навчального набору, а потім вивчення найкращих параметрів з урахуванням цього висновку, а потім повторення. Висновок часто використовується в процесі навчання таким чином, але це також представляє незалежний інтерес, наприклад, вибирати, який компонент генерував дану точку даних в моделі Гауссової суміші, щоб визначитися з найбільш ймовірним прихованим станом у прихованій моделі Маркова, для імпульсування відсутніх значень у більш загальній графічній моделі, ....


1
І маленький нюанс , який можна вибрати , щоб ламати речі вниз у вивченні і висновок таким чином, але можна також вибрати зробити всю партію як умовиводи: stats.stackexchange.com/questions/180582 / ...
conjugateprior

Чому так багато рядків? Я хочу побачити просту відповідь, яка розмежовує їх у одному-двох реченнях. Також не всі знайомі з ГММ або ЕМ.
nbro

9

Висновок - це вибір конфігурації на основі одного входу. Навчання - це вибір параметрів на основі деяких прикладів навчання.

У рамках моделі, заснованої на енергетиці (спосіб перегляду майже всіх архітектур машинного навчання), висновок вибирає конфігурацію, щоб мінімізувати енергетичну функцію , утримуючи параметри фіксованими; навчання вибирає параметри для мінімізації функції втрат .

Як вказує кон'югатприор, інші люди використовують різну термінологію для одного і того ж. Наприклад, Бішоп використовує "висновок" і "рішення", щоб означати навчання і умовивід відповідно. Причинно-наслідковий висновок означає навчання. Але які б терміни ви не вирішили, ці дві концепції відрізняються.

Неврологічна аналогія є закономірністю стрільби нейронів, це конфігурація; набір сильних з’єднань - це параметри.


@mcb Я досі не знаю, що ви маєте на увазі під "відхиленнями". "Invariances" - це навіть не слово в словнику. Так, існує багато алгоритмів навчання, які покладаються на таку конфігурацію, як ЕМ, описану у відповіді Дугала.
Ніл G

@mcb Я також не розумію ваших питань; можливо, це допоможе вказати прикладну модель та бути конкретним щодо того, про яке розповсюдження / відхилення / інваріанти (?) ви говорите.
Дугал

Дякуємо за Ваші відповіді. Можливо, я щось неправильно зрозумів.
Ленар Хойт

@NeilG Я вважаю, що ця термінологія в основному використовується в роботі із баченням ML, де рішення щодо класифікації повинні бути "інваріантними" для перекладу об'єктів, обертання, масштабування тощо. Неможливо знайти хороший короткий посилання, але ось це: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
кон'югатпріора

@conjugateprior У мене було таке відчуття, що він до цього потрапляє, але хотів дізнатися, чи зможе він зрозуміти своє питання.
Ніл Г

4

Це схоже на класичну плутанину міжмовної дисципліни. ОП, здається, використовує неврологічну термінологію, де ці два терміни можуть мати різну конотацію. Але оскільки Cross Valified в основному стосується статистики та навчання машинінгу, я спробую відповісти на питання, що базується на загальному використанні цих термінів у цих галузях.

У класичній статистиці умовивід - це просто дістати те, що ви знаєте про вибірку, і скласти математичну заяву про населення, з якого воно (сподіваємось) є представником. З канонічного підручника Casella & Berger (2002): "Предмет теорії ймовірностей - це основа, на якій будується вся статистика ... за допомогою цих моделей статистики можуть робити висновки про сукупність, умовиводи на основі вивчення лише частина цілого ». Так у статистиці висновок конкретно пов'язаний з p-значеннями, тестовою статистикою та розподілом вибірки тощо.

Що стосується навчання, я думаю, що ця таблиця з Всесвітньої статистики Вассермана (2003) може бути корисною:

введіть тут опис зображення


Це не погоджується з багатьма іншими підручниками, включаючи книгу Бішопа, згадану в коментарях. Класифікація - це різновид контрольованого навчання, коли цільовими змінними є категорії. Слово "оцінка" одне розпливчасте: зазвичай ми маємо на увазі "оцінка щільності" або "оцінка параметрів" або "послідовна оцінка" або "оцінка максимальної ймовірності".
Ніл Г

1
Також сітка Байєса - це не просто спрямований ациклічний графік! Це свого роду даг, вузли якого представляють судження та ребра якого представляють імовірнісні залежності. Він визначає умовні відносини незалежності.
Ніл G

1
@NeilG Зовсім так. Найближчим перекладом статистики, ймовірно, буде "модель структурного рівняння"
кон'югат

2
І в жахливій кількості статистичних даних повинні бути два рядки про дані: CS: дані про навчання, Статистика: data. CS: дані тесту, статистика: Wut?
кон'югатприор

Стат 101: wut = інший (сподіваємось випадковий) зразок з вашого населення ...
Зоя Кларк

-1

Дивно, що ніхто про це не згадував, але ви можете мати висновки лише у випадках, коли у вас є розподіл ймовірностей. Тут цитувати Вікі, де цитується словник Оксфорда:

Статистичний висновок - це процес використання аналізу даних для виведення властивостей базового розподілу ймовірностей (Оксфордський словник статистики)

https://en.wikipedia.org/wiki/Statistic_inference

У випадку традиційних нейронних мереж, k-NN або ванільних SVM у вас немає ані щільності ймовірності, ані припущень щодо будь-якої щільності, отже, статистичних висновків там немає. Тільки навчання / навчання. Однак для більшості (всіх?) Статистичних процедур можна використовувати як висновки, так і навчання, оскільки ці процедури мають певні припущення щодо розподілу населення.


Це неправильно. У будь-якому випадку, ви можете інтерпретувати нейронні мережі як вироблення розподілу, якщо хочете. Дивіться, наприклад, Amari 1998.
Neil G

Це не неправильно або уточнюйте. Ви МОЖЕТЕ тлумачити, але спочатку такого тлумачення немає.
SWIM S.

Це неправильно, оскільки люди використовують термін умовивід для таких моделей, як автоінциденти.
Ніл Г

Отже, це неправильно, оскільки якась група людей вживає цей термін неправильно? Або тому, що вони мають певну ймовірнісну інтерпретацію своїх NN (я не дуже знайомий з автокодерами)? Я логічно виправдав, чому один термін відрізняється від іншого. Отже, з огляду на вищезазначене визначення, я бачу, що ті, хто вживає термін умовивід з NN, k-NNs або SVM (за винятком випадків, коли існує імовірнісна інтерпретація), в значній мірі зловживають цим позначенням.
SWIM S.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.