Яка різниця між передбаченням і висновком?


37

Я читаю " Вступ до статистичного навчання ". У главі 2 вони обговорюють причину оцінки функції .f

2.1.1 Чому оцінюємо ?f

Є дві основні причини , ми , можливо , забажає оцінити е : передбачення і умовиводів . Ми обговорюємо кожного по черзі.

Я читав це вже кілька разів, але мені все ще частково не зрозуміло різницю між передбаченням і висновком. Чи міг би хтось надати (практичний) приклад відмінностей?


5
Автори «Вступу до статистичного навчання» зробили тут насправді. Один робить висновки для прогнозування так само, як можна зробити висновки, щоб зрозуміти причини та наслідки. Merriam-webster.com визначає "висновок", головним чином, як "висновок із фактів чи обставин". Це охоплює як причинно-наслідкові, так і прогнозні міркування. Це введення в оману, заплутаність і проти довготривалого використання стандартів, щоб звузити визначення поняття "висновок", включаючи лише питання причинності. Отже: порівняємо прогнозний умовивід з причинним висновком.
rolando2

2
@ rolando2: Тоді я думаю, нам також потрібен описовий умовивід , тобто висновок про параметри в описовій (некозальній) моделі.
kjetil b halvorsen

Відповіді:


29

Висновок: Враховуючи набір даних, які ви хочете зробити висновок про те, як генерується результат як функція даних.

Прогнозування: Давши нове вимірювання, ви хочете використовувати наявний набір даних для побудови моделі, яка надійно вибирає правильний ідентифікатор із набору результатів.


Висновок: Ви хочете дізнатися, який вплив віку, класу пасажирів та статі на переживши катастрофу "Титанік". Ви можете налаштувати логістичну регресію та зробити висновок про вплив кожного пасажира на рівень виживання.

Прогнозування: Враховуючи деяку інформацію про пасажира "Титаніка", ви хочете вибрати з набору і бути правильним якомога частіше. (Див. Компроміс з відхиленням відхилення для прогнозування, якщо вам цікаво, як правильно, як можна частіше.){lives,dies}


Прогнозування не обертається навколо встановлення найбільш точного співвідношення між входом і результатом, точне прогнозування піклується про те, щоб якомога частіше вводити нові спостереження в потрібний клас.

Тож "практичний приклад" грубо зводиться до такої різниці: Враховуючи набір даних про пасажирів для одного пасажира, підхід до висновку дає вам ймовірність вижити, класифікатор дає вам вибір між життям або смертю.

Налаштування класифікаторів є дуже цікавою та важливою темою так само, як правильно тлумачити p-значення та довірчі інтервали.


1
Гарна відповідь. Але коли деякі люди чують слово "умовивід", вони думають "причинний висновок". Ви можете також сказати про це, навіть якщо (а може, особливо тому, що ISLR) не зосереджений на цьому.
generic_user

1
Я думаю, що у світі глибокого навчання висновок майже такий же, як і передбачення, наприклад. blogs.nvidia.com/blog/2016/08/22/…
користувач1893354

1
Це здається мені ідеально хорошою відповіддю.
gung - Відновіть Моніку

3
Я вважаю, що ця відповідь є помилковою, зокрема "підхід до висновку дає вам ймовірність вижити; класифікатор дає вам вибір між життями або вмираннями", навіть конкретніше першою частиною. Розрахунок ймовірності виживання пасажира - це прогноз, зокрема ймовірнісний. У безперервному випадку це буде прогноз щільності. Тоді ми можемо обмежити цю передбачувану ймовірність отримати жорстку класифікацію , так. ...
С. Коласа - Відновіть Моніку

3
... В той час як прогнозування стосується прогнозування результатів , висновок - це розуміння взаємозв'язку вхідних даних до результату: який вхід має такий взаємозв'язок, і як ми можемо відрізнити "справжнє" співвідношення від випадкової коваріації (де це значення p увійдіть)? Хтось може мені пояснити, де я помиляюся?
С. Коласа - Відновіть Моніку

11

Як правило, при аналізі даних ми уявляємо, що існує якийсь "процес генерування даних", який породжує дані, а висновок стосується вивчення структури цього процесу, тоді як прогнозування означає можливість реально прогнозувати дані, що надходять з нього . Часто вони йдуть разом, але не завжди.

Прикладом, коли двоє йдуть рука об руку, буде проста модель лінійної регресії

Yi=β0+β1xi+ϵi.

Висновок у цьому випадку означатиме оцінку параметрів моделі та і наші прогнози будуть просто обчислені з наших оцінок цих параметрів. Але є й інші типи моделей, де можна зробити розумні прогнози, але модель не обов'язково призводить до осмислених уявлень про те, що відбувається за лаштунками. Деякі приклади подібних моделей можуть бути складними методами ансамблю, які можуть призвести до хороших прогнозів, але іноді їх важко або неможливо зрозуміти.β 1β0β1


3
"але модель не обов'язково призводить до осмислених уявлень про те, що відбувається за лаштунками". На думку приходить термін « чорна скринька ». :)
Олексій

або багатошарові нейронні мережі
Шихаб Шахріар Хан

"Але є й інші типи моделей, де можна зробити розумні прогнози, але модель не обов'язково призводить до осмислених уявлень про те, що відбувається за лаштунками", кого це хвилює? Проблема висновку, як ви її визначили, все ще є проблемою визначення параметрів моделі. Я не розумію, чому ви починаєте це речення з "Але" і чому ви навіть написали це речення, стосовно вашого визначення умовиводу та передбачення.
nbro

1
Використання "але" пояснюється тим, що обидва описи попередньої та наступних моделей є правильними, однак наступна модель відрізняється від природи колишньої способів, яких ви б не очікували, поки не зрозумієте різницю між передбаченням і висновком що проілюстровано. Я вже знайомий з / відмінністю, проте, я вважаю цей приклад проникливим і корисним. +1
gung - Відновіть Моніку

10

На сторінці 20 книги автори подають прекрасний приклад, який змусив мене зрозуміти різницю.

Ось параграф із книги: Вступ до статистичного навчання

" Наприклад , в умовах нерухомості можна намагатися співвідносити значення будинків з такими витратами, як рівень злочинності, районування, відстань від річки, якість повітря, школи, рівень доходів громади, розмір будинків тощо. У цьому випадку вас може зацікавити, як окремі вхідні змінні впливають на ціни, тобто скільки коштуватиме додатковий будинок, якщо він має вид на річку? Це проблема висновку , або, можливо, його просто зацікавить при прогнозуванні вартості будинку з огляду на його характеристики: чи цей будинок недооцінений чи завищений? Це проблема передбачення ".


5

ytx1,tx2,t

yt=f(x1,t1,x2,t1)+εt

Тепер, якщо ви отримаєте дані про доходи, скажімо, особисті наявні доходи від BEA, і побудуєте змінну часу року, ви можете оцінити функцію f , а потім підключити останні значення доходу населення та час року до цього функція. Це дасть прогноз на наступний квартал доходу магазину.

f/x2tβ2x2,t1

xє кореляційними, важче відокремити вплив прогноктора від впливу інших прогнокторів. Для прогнозування це не має значення, все, що вам важливо, - це якість прогнозу.


3

Уявіть, ви лікар у відділенні інтенсивної терапії. У вас є пацієнт із сильною лихоманкою та заданою кількістю клітин крові та даною вагою тіла та сотнями різних даних, і ви хочете передбачити, чи він виживе. Якщо так, він збирається приховати дружину цю історію про свою другу дитину, якщо ні, то для нього важливо розкрити її, поки він зможе.

Лікар може зробити це прогнозування, грунтуючись на даних колишніх пацієнтів, яких він мав у своєму відділенні. На основі своїх знань з програмного забезпечення він може передбачити, використовуючи або узагальнену лінійну регресію (glm), або через нейронну мережу (nn).

1. Узагальнена лінійна модель

Існує дуже багато корельованих параметрів для glm, тому для досягнення результату лікареві доведеться приймати припущення (лінійність тощо) та рішення про те, які параметри можуть мати вплив. GLM нагородить його тест-значущістю для кожного з його параметрів, щоб він зібрав вагомі докази того, що стать і лихоманка мають суттєвий вплив, маса тіла не обов'язково.

2. Нейронна сітка

Нейронна сітка проковтне і перетравить всю інформацію, що є у вибірці колишніх пацієнтів. Не буде байдуже, чи співвідносяться прогнози, і це не виявить такої великої інформації про те, чи здається, що вплив маси тіла важливий лише у вибірці під рукою або взагалі (принаймні, не на рівні експертизи, яку лікар може запропонувати). Це просто обчислить результат.

Що краще

Який спосіб вибрати, залежить від того, з якого кута ви дивитесь на проблему: Як пацієнт, я вважаю за краще нейронну мережу, яка використовує всі наявні дані, щоб найкраще здогадатися про те, що буде зі мною, без чітких і очевидно неправильних припущень, таких як лінійність. Оскільки лікар, який хоче представити деякі дані в журналі, йому потрібні p-значення. Медицина дуже консервативна: вони збираються просити р-значення. Тож лікар хоче повідомити, що в такій ситуації стать має значний вплив. Для пацієнта це не має значення, просто використовуйте будь-який вплив, проба якого вважає найбільш ймовірним.

У цьому прикладі пацієнт хоче прогнозування, сторона вченого вимагає висновку. Здебільшого, коли ви хочете зрозуміти систему, то висновок хороший. Якщо вам потрібно прийняти рішення, коли ви не можете зрозуміти систему, прогнозування буде достатньо.


1
"Як пацієнт, я вважаю за краще б нейронну сітку ..." Ви, мабуть, нехтуєте тим фактом, що велика кількість даних може бути надзвичайно важкою для пошуку в клінічній науці. Набори даних із декількох спостережень на групу не є рідкістю через проблеми безпеки, конфіденційності та етичних питань. Якщо ви можете зробити припустимі припущення щодо процесу генерації даних, ви можете набагато ефективніше використовувати їх.
Франс Роденбург

Це повинен був бути гіпотетичним сценарієм, в якому можна легко пов'язати з тим, чому, здавалося б, одна і та ж проблема може підказати питання висновку та проблеми передбачення і чому вони не є однаковими. Я не пропонував методи реально передбачити шанси на виживання пацієнта, і так, я добре знаю, наскільки важко отримати достовірні клінічні дані помітного розміру. Хороші припущення / знання ІМХО про процес генерування даних допоможуть у прогнозуванні, а також у виведенні, таким чином, не сильно розрізняють обидва.
Бернхард

1

Ви тут не самотні. Прочитавши відповіді, я більше не плутаюсь - не тому, що я розумію різницю, а тому, що я розумію, що це в очах глядача і словесно спонукається. Я впевнений, що зараз ці два терміни - це політичні визначення, а не наукові. Візьмемо для прикладу пояснення з книги, яке коледжі намагалися використати як хороше: "скільки коштуватиме додатковий будинок, якщо він має вид на річку? Це проблема висновку". З моєї точки зору, це абсолютно проблема передбачення. Ви власник цивільної будівельної компанії, і хочете вибрати найкращий грунт для будівництва наступного набору будинків. Ви повинні вибрати між двома місцями в одному місті, одне біля річки, наступне біля залізничного вокзалу. Ви хочете передбачитиціни на обидва місця. Або ви хочете зробити висновок . Ви збираєтесь застосовувати точні методи статистики, але ви називаєте процес. :)


Думка про те, що вид на річку потребує певної ціни, є причинною інтерпретацією. Прогноз є агностичним щодо причинності: я можу передбачити наслідки від причин, причини від наслідків або 1 ефект від іншого ефекту з подібними причинами. Подумайте, що мій друг Біллі, який має 5'10 "і у якого є однаковий близнюк, Боббі, якого я ніколи не зустрічав. Тим не менш, я можу передбачити, що Боббі - 5'10", але якщо я зроблю Біллі високим, надаючи йому ліфтові черевики, Я не можу обов'язково передбачити, що Біллі також буде вище.
gung - Відновіть Моніку

Приклад, який ви цитуєте, - це просто поганий приклад, тому він заплутаний. Різниця між умовиводом і прогнозуванням, безумовно, більше, ніж "політика".
Річард Харді

1

Існує хороше дослідження, яке показує, що сильним прогнозувачем того, чи будуть позичальники повертати свої позики, є те, чи вони використовують фетр для захисту своїх підлог від подряпин меблевими ногами. Ця змінна "фетр" стане чіткою підмогою для прогнозної моделі, коли результат відшкодовується проти дефолту. Однак, якщо кредитори захочуть отримати більший ефект від цього результату, вони будуть звільнені від думки, що вони можуть це зробити, поширюючи відчуття як можна ширше.

"Яка ймовірність цього позичальника погасити?" - проблема передбачення; "Як я можу вплинути на результат?" - це проблема причинного висновку.


-1

y = f (x), то

передбачення (яке значення Y з заданим значенням x: якщо конкретне значення x, що може бути значенням Y

умовивід (як y змінюється зі зміною x): що може бути впливом на Y, якщо x змінюється

Приклад прогнозування: припустимо, що y представляє зарплату людини, то якщо ми надаємо вклад, такий як багаторічний досвід роботи, ступінь як вхідні змінні, то наша функція передбачає зарплату працівника.

Приклад висновку: припустимо, що вартість життя змінюється, то на скільки змінюється зарплата


Я не бачу, чому ця відповідь заслуговує двох голосів.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.