Що в реальному світі є прикладом "переозброєння"?

107

Я начебто розумію, що означає "переозброєння", але мені потрібна допомога щодо того, як придумати приклад із реального світу, який стосується перевиконання.

overfitting

— користувача3851283
джерело

12

Можливо, ви могли б пояснити, що ви «начебто розумієте» щодо того, що означає «надмірне оснащення», щоб люди могли звертатися до тих частин, яких ви не розумієте, не гадаючи, що це може бути?

— goangit

3

@ssdecontrol Помилкова кореляція не є надмірною. Насправді, хибна кореляція не повинна включати явну модель, а неявна модель зазвичай є прямою лінією з двома параметрами.

— Нік Кокс

1

@whuber: Це, можливо, буде більш доречним для обговорення мета, але я був здивований, побачивши, що ви перетворили цю публікацію на вікі спільноти. Чи не означає це, що ОП не отримає підвищення репутації для майбутніх учасників? Для мене це виглядає майже як "покарання" для нього; що було причиною цього?

— амеба

4

@amoeba Це не покарання: очевидно, на це запитання немає жодної правильної чи канонічної відповіді. У своєму первісному вигляді як питання, що не стосується CW, це було поза темою - і його слід було швидко закрити, BTW - але тому, що може бути корисно мати кілька хороших прикладів, створених спільно спільнотою, надаючи статус CW замість закриття, це здається розумним рішенням.

— whuber

17

На сьогодні дуже мало цих відповідей (лише два з 11!) Навіть намагаються вирішити питання, яке вимагає прикладу реального світу . Це означає не симуляцію, не теоретичний приклад, не мультфільм, а серйозно застосовану модель до фактичних даних. Зауважте також, що на це питання явно намагаються відхилити відповіді від пояснень того, що таке надмірна відповідність.

— whuber

96

Ось прекрасний приклад моделей часових серій президентських виборів від xkcd: введіть тут опис зображення

Усього було 56 виборів президента та 43 президента. Це не багато даних, з яких можна дізнатися. Коли прогностичний простір розширюється, включаючи такі речі, як хибні зуби та значення точки імені Scrabble, імовірно, що модель перейшла від встановлення узагальнюючих особливостей даних (сигналу) та почала відповідати шуму. Коли це станеться, придатність до історичних даних може покращитись, але модель буде невдалою, якщо використовувати висновки про майбутні президентські вибори.

— Мастеров Дмитро Васильович
джерело

15

Я думаю, вам слід додати щось про упередженість зразків, щоб пояснити, як це стосується перевиконання. Тільки вирізання і вставка мультфільму не вистачає пояснення.

— Ніл Слейтер

5

Приємною особливістю цього прикладу є те, що він демонструє різницю між надяганням та складністю. Правило "Як йде Каліфорнія, так йде і нація" є простим, але все ще надмірним.

— Том Мінка

2

@TomMinka насправді переозброєння може бути спричинене складністю (модель занадто складна, щоб вмістити занадто прості дані, таким чином, додаткові параметри будуть відповідати тому, що підходить під рукою), або, як ви вказали, галасливими особливостями, які отримують більше ваг у рішенні, ніж доречно особливості. І є безліч інших можливих джерел надмірного пристосування (властива дисперсія даних або моделі, дані, що не мають значення для відображення цільової мети тощо). Я думаю , ми повинні сказати , що є перенавчання сек , а не тільки перенавчання (що означає , що є тільки одна причина, яка часто не є правильним).

— габоровий

80

Моїм улюбленим був приклад Матлаба щодо перепису населення США порівняно з часом:

Лінійна модель досить гарна
Квадратична модель ближче
Квартальна модель передбачає повне знищення, починаючи з наступного року

(Принаймні, я щиро сподіваюсь, що це є прикладом надягання)

http://www.mathworks.com/help/curvefit/examples/polynomial-curve-fitting.html#zmw57dd0e115 введіть тут опис зображення

— прототип
джерело

1

Щоб зрозуміти, що саме під сюжетом вони говорять: "Поведінка полінома шостого ступеня, що знаходиться за межами діапазону даних, робить його поганим вибором для екстраполяції, і ви можете відхилити це пристосування "

— usεr11852

49

Дослідження Chen et al. (2013) відповідає двом кубікам до передбачуваної тривалості життя як функції широти.

Chen Y., Ebenstein, A., Greenstone, M., and Li, H. 2013. Докази про вплив стійкого забруднення повітря на тривалість життя внаслідок китайської політики річки Хуай. Праці Національної академії наук 110: 12936–12941. реферат

Незважаючи на публікацію у видатному журналі тощо, його мовчазне схвалення видатних людей тощо, я все-таки представив би це як prima facie приклад надмірного пристосування.

Оповідальний знак - це неправдоподібність кубіків. Вміст кубічного припущення передбачає певну причину, чому тривалість життя може змінюватись як поліном третього ступеня широти, де ви живете. Це здається досить неправдоподібним: непросто уявити правдоподібний фізичний механізм, який спричинив би такий ефект.

Дивіться також наступну публікацію в блозі для більш детального аналізу цього документу: Докази про вплив тривалого використання поліноміальної регресії на причинно-наслідковий висновок (твердження, що нагрівання вугілля скорочує термін життя на 5 років на півмільярда людей) .

— Нік Кокс
джерело

5

+1 Ендрю Гельман навіть написав одну-дві публікації в блозі про те, чому це неправдоподібно. Ось один: andrewgelman.com/2013/08/05/…

— Sycorax

@ user777 Блог Gelman - це, мабуть, як я вперше почув про це. Але я вважав, що найдоцільніше дати посилання, додати пух мого особистого коментаря та дозволити людям судити про себе.

— Нік Кокс

1

Я вирізав редакцію від @DW, яка представила коментарі щодо тривалості життя в різних країнах, про що не йдеться у статті.

— Нік Кокс

2

Ще один приклад, на який я думаю, є ілюстративним (хоча, можливо, більше надуманим, ніж "реальним"), є змаганнями з прогнозування, які дають проміжні результати - наприклад, кангл. Зазвичай є люди, які оптимізують результати до таблиці лідерів, але вони не є переможцями для вибірки, що вистачає. Роб Хайндман має деякі обговорення цього питання. Це займає трохи більш глибоку перспективу, однак, ніж я думаю, що ОП хоче тут.

— Енді Ш

2

Я ось-ось збирався опублікувати папір Gelman & Imbens, що вийшла з цього сайту: nber.org/papers/w20405 (закритий, на жаль)

— shadowtalker

38

У статті , поданій 14 березня 2014 року в розділі Science , Девід Лазер, Райан Кеннеді, Гері Кінг та Алессандро Веспіньяні визначили проблеми в тенденціях грипу Google, які вони відносять до надмірного пристосування.

Малюнок

Ось як вони розповідають історію, включаючи їхнє пояснення природи пристосування та чому це призвело до відмови алгоритму:

У лютому 2013 року "Природа" повідомила, що GFT прогнозує більш ніж удвічі більшу частку відвідувань лікаря щодо захворювання, що нагадує грип (ІРС), ніж Центри контролю та профілактики захворювань (CDC) .... Це сталося попри те, що GFT був створений для прогнозування звітів CDC. ...

По суті, методологія полягала в тому, щоб знайти найкращі збіги серед 50 мільйонів пошукових термінів, щоб відповідати 1152 балам даних. Шанси на пошук пошукових термінів, які відповідають схильності грипу, але структурно не пов’язані між собою і не передбачають майбутнього, були досить високими. Фактично, розробники GFT повідомляють про відмінювання сезонних пошукових термінів, не пов’язаних із грипом, але сильно співвідносимись із даними CDC, такими, що стосуються баскетболу середньої школи. Це повинно було бути попередженням про те, що великі дані перевищують невелику кількість випадків - стандартне занепокоєння в аналізі даних. Цей спеціальний метод викидання своєрідних пошукових термінів не вдався, коли GFT повністю пропустила несезонну пандемію грипу A – H1N1 2009 року.

[Наголос додано.]

— дзижчання
джерело

3

На жаль, цей приклад має деякі проблеми. У роботі запропоновано дві досить різні причини, чому GFT робив погані прогнози: надмірне обладнання та зміни в пошуковій системі. Автори визнають, що вони не в змозі визначити, яка причина (якщо така є) є правильною, тому це по суті спекуляція. Крім того, абзац про перевиконання стосується оригінальної версії системи, тоді як прогнози в графі були зроблені з модифікованою системою.

— Том Мінька

1

@Tom Стаття написана не так, нібито твердження про перевитрату є спекуляцією: автори на це твердо стверджують. Я думаю, що це розумна заява. Вони також вирішують причину, чому вони мають бути дещо спекулятивними: Google не був відкритим чи прозорим щодо алгоритму. На сьогоднішній день мені здається несуттєвим, чи відбулося надмірне оснащення лише в одній версії або в багатьох версіях, але, як я пам’ятаю, автори також звертаються до цього і вказують на свідчення тривалої придатності в поточному алгоритмі.

— whuber

2

У статті йдеться лише про те, що перевиконання - це стандартне питання в аналізі даних. Він не стверджує, що причиною цього є надмірне обладнання. У посиланні (2) йде більш докладно, але знову йдеться про те, що перевиконання - це лише "можлива проблема", з твердженням "Оскільки алгоритм пошуку та отримані умови запиту, які використовувались для визначення оригінальних та оновлених моделей GFT, залишаються нерозкритими, це важко визначити причини неоптимальної роботи системи та дати рекомендації щодо вдосконалення ".

— Том Мінка

@То я буду стояти за цитатою, наведеною тут, яка є точною, як адекватна підтримка того, чому модель Google грипу заслуговує на розгляд у сучасному контексті.

— whuber

Цікава дискусія. Я додам лише, що графік може підтримувати аргумент краще, якби рядки були позначені міткою.

— rolando2

32

Я побачив це зображення кілька тижнів тому і подумав, що це досить релевантне питання.

картина мема

Замість того, щоб лінійно підходити послідовність, він був оснащений квадратним многочленом, який мав ідеальне прилягання, але привів до явно смішної відповіді.

— Березень Хо
джерело

12

Це не відповідає на запитання, а може бути краще, як коментар або взагалі не публікується. Це не дає реального прикладу надмірного оснащення (саме до цього було задано питання). Це також не пояснює, як приклад зображення має відношення до накладання. Нарешті, це дуже коротко. Ми вважаємо за краще ґрунтовні, детальні відповіді, які відповідають на поставлене запитання, а не лише на обговорення, пов’язані з питанням.

— DW

9

Насправді це саме випадок надмірного оснащення через занадто складну модель, оскільки ви можете побудувати нескінченність функцій вищого порядку (нелінійних), щоб генерувати нескінченну кількість різних останніх членів послідовності, зберігаючи при цьому інші (відомі) терміни, використовуючи інтерполяцію Лагранжа, як пояснено тут .

— габоровий

@ user1121352 У мультфільмі поліном високого порядку є справжньою моделлю, тому справа зовсім не в надмірному розміщенні. Відповідь на зразок "9" (наступне непарне число) або "11" (наступний непарний простір) насправді буде недостатньо придатною, оскільки для передбачення наступного значення використовується занадто проста модель. Карикатура насправді ілюструє протилежний випадок, що може бути істинною більш складна модель.

— Sycorax

8

Кварковий многочлен (як мене інтерпретують) має бути смішним рішенням, оскільки очевидна відповідь, яку хтось дасть перед тим, як побачити смішне рішення, буде 9 (або будь-яке інше значення OEIS). Я припускав, що формат "дож" передає сарказм, але тут ми чітко бачимо Закон По.

— Ho March

2

Це саме те, що я намагаюся зробити, але це те, що ми не знаємо, що таке справжня функція. Якщо ви проводите оригінальний аналіз, у вас немає такого ресурсу, як OEIS, щоб звернутися до правдивості: саме так намагається встановити ваша модель. Я вдячний, що мультфільм намагається сарказм, але розміщення мультфільму в рамках цієї конкретної дискусії викриває важливу тонкість питання про переозброєння та загальне статистичне моделювання. Намір його оригінального творця не має значення, оскільки ви тут реконтекстуалізували його!

— Sycorax

22

Для мене найкращим прикладом є система Птолемея в астрономії. Птолемей припускав, що Земля знаходиться в центрі Всесвіту, і створив складну систему вкладених кругових орбіт, яка б пояснила досить добре рухи предмета по небі. Астрономам доводилося продовжувати додавати кола, щоб пояснити відхилення, поки одного разу воно не стало таким перекрученим, що люди почали сумніватися в цьому. Саме тоді Коперник придумав більш реалістичну модель.

Це найкращий приклад надягання мені. Ви не можете перевиконати процес генерації даних (DGP) до даних. Можна переповнювати лише неправильну модель. Майже всі наші моделі соціальних наук помилково уточнені, тому головне пам’ятати про це та зберігати їх парсимонічно. Не намагатися зафіксувати кожен аспект набору даних, а спробувати захопити суттєві особливості шляхом спрощення.

— Аксакал
джерело

15

Це, мабуть, не є прикладом перевиконання. З системою Птолемея як прогностичною моделлю немає нічого поганого: вона складна лише тому, що система координат геоцентрична, а не зароджується з галактичним центром маси. Проблема, отже, полягає в тому, що була зроблена точна, законна відповідність із надто складною моделлю. (Еліпси набагато простіші, ніж епіцикли.) Знайти парсимоніальні нелінійні моделі справжнє завдання!

— whuber

1

Ви отримаєте безліч кіл для моделювання орбіт лун Юпітера в системі Птолемея.

— Аксакал

17

Це правильно - але, зважаючи на це, це не обов'язково є надмірним. Тест на кислоту полягає у передбаченні майбутніх значень, які в цій системі працювали досить добре, щоб простояти 1400 років. Дані є надмірними не тоді, коли модель є дуже складною, але коли вона настільки гнучка, що, захоплюючи сторонні деталі, вона дає набагато більш неточні прогнози, ніж можна було б очікувати від аналізу залишків моделі на її навчальних даних.

— whuber

2

E Y = \sum_{k = 0}^{9} β_{k} x^{i}

$\operatorname{E}Y=\sum_{k=0}^9 \beta_k x^i$

2

E Y = \sum_{k = 0}^{9} β_{k} x^{k}

$\operatorname{E}Y=\sum_{k=0}^9 \beta_k x^k$

x

$x$

22

Скажімо, у вас на графіку є 100 крапок.

Можна сказати: хм, я хочу передбачити наступний.

з лінією
з многочленом 2-го порядку
з поліномом 3-го порядку
...
з поліномом 100-го порядку

Тут ви можете побачити спрощену ілюстрацію для цього прикладу: введіть тут опис зображення

Чим вище порядок поліномів, тим краще він поміститься до існуючих крапок.

Однак поліноми високого порядку, незважаючи на те, що вони виглядають як кращі моделі для крапок, насправді їх переоблаштовують. Він моделює шум, а не справжній розподіл даних.

Як наслідок, якщо ви додасте нову крапку до графіка за допомогою ідеально підходящої кривої, вона, ймовірно, буде далі від кривої, ніж якщо б ви використовували простіший поліном низького порядку.

— арно
джерело

"Як наслідок, якщо ви додасте нову крапку до графіка за допомогою ідеально підходящої кривої, вона, ймовірно, буде далі від кривої, ніж якщо б ви використовували більш простий поліном низького порядку" - більше того, це все-таки вірно, навіть якщо Процес генерування даних для нової точки (тобто співвідношення у сукупності) насправді був поліномом великої потужності, як той, який вам (над) підходив.

— Срібна рибка

19

Зображення тут насправді невірні - наприклад, поліном 9 градусів був побудований лише як кусково-лінійна функція, але я думаю, що насправді він повинен дико гойдатися вгору та вниз у діапазонах між точками. Цей ефект слід бачити і в поліномії 5 градусів.

— Кен Вільямс

17

Аналіз, який, можливо, сприяв катастрофі Фукусіми, є прикладом подолання. У науці про Землю є добре відомий взаємозв'язок, який описує ймовірність землетрусів певного розміру, враховуючи частоту "менших" землетрусів. Це відоме як відносини Гутенберга-Ріхтера, і він забезпечує прямолінійний зруб, що підходить протягом багатьох десятиліть. Аналіз ризику землетрусу в районі реактора (ця діаграма з чудової книги Нейт Сілвер "Сигнал і шум") показує "перелом" у даних. Ігнорування перегину призводить до оцінки ризику землетрусу магнітудою 9 приблизно за рік на 300 - безумовно, до чого слід підготуватися. Однак, перевиконання лінії з подвійним ухилом (як це було зроблено під час первинної оцінки ризику для реакторів) зменшує прогнозування ризику приблизно до 1 на 13 000 років. Не можна було б винуватити інженерів за те, що вони не спроектували реактори протистояти такій малоймовірній події, - але, безумовно, слід винувати статистиків, які переоцінили (а потім екстраполювали) дані ...

введіть тут опис зображення

— Флоріс
джерело

Чи переконливою є модель з подвійним ухилом? Кінк видатний; Я б припустив, що якщо кожен сегмент рядка був оцінений від, скажімо, по 3 бали в кожному, ви отримаєте кращі прогнози щодо затримки, ніж шляхом оцінки одного рядка. (Звичайно, подальше спостереження за подією "1 на 13 000 років" суперечить цьому! Але це важко інтерпретувати, оскільки ми б не переглядали цю модель, якби цього не сталося.) Якби були фізичні причини ігнорувати що сприймається, то випадок, коли це було надлишковим, є сильнішим - я не знаю, наскільки такі дані зазвичай відповідають ідеальним відносинам Гутенберга-Ріхтера.

— Срібна рибка

Це дуже графічно ілюструє небезпеку екстраполяції та необхідність функції втрат, яка враховує тяжкість наслідків помилки ...

— Silverfish

3

Проблема справді полягає в тому, що для деяких останніх моментів використовується дуже мало даних, тому в них є велика невизначеність. Придивившись уважно до даних, можна побачити, що відбулася подія 7.9, потім кілька 7.7. Про землетруси більше 8,0 відомо, оскільки вони рідкі, але коли ви спостерігаєте землетрус 9,0 (землетрус Тохоку, який спричинив цунамі), ви можете зробити власний висновок. Пряма лінія може бути консервативною - але якщо мова йде про ядерну безпеку, то консервативність хороша.

— Флоріс

1

@Floris Добре. Було б краще, якби вони використовували графічний графік, який показував не тільки спостережувані частоти, але й довірчі інтервали для цих частот. Тоді, напевно, можна отримати дуже вузькі поля ліворуч на діаграмі та дуже широкі поля праворуч. (Такі довірчі інтервали можна обчислити, якщо припустити, що кожна частота відповідає розподілу Пуассона.)

— user763305

3

@ user763305 - так, я впевнений, що додавання довірчих інтервалів би показало, що пряма лінія не суперечить даним (або іншими словами, ви не можете відкинути нульову гіпотезу про те, що дані слідують за прямою лінією).

— Флоріс

15

"Ага! Пат покидає компанію. Як ми коли-небудь знаходимо заміну?"

Вакансії:

Потрібний: інженер-електрик. 42-річна андрогінна людина зі ступенем електротехніки, математики та тваринництва. Повинен бути 68 дюймів у висоту з каштановим волоссям, родимкою на лівому оці та схильним до довговолосих діатрибів проти гусей та неправомірному використанню слова "порада".

У математичному сенсі переозброєння часто стосується створення моделі з більшою кількістю параметрів, ніж необхідно, в результаті чого краще підходить для певного набору даних, але без фіксації відповідних деталей, необхідних для відповідності іншим наборам даних із класу, що цікавить.

У наведеному вище прикладі плакат не в змозі відмежовувати відповідні від несуттєвих характеристик. Отриману кваліфікацію, ймовірно, відповідає лише тій особі, яку вони вже знають, що підходить для роботи (але більше не хоче цього).

— Марк Боргердінг
джерело

8

Цієї відповіді розважаючи, ця відповідь не дає зрозуміти, що означає надмірна форма в статистичному сенсі. Можливо, ви могли б розширити свою відповідь, щоб уточнити зв’язок між цими особливо особливими ознаками та статистичним моделюванням.

— Sycorax

+1 Позначити. Я погоджуюся з @ user777 лише в незначній мірі. Можливо, пропозиція принесе стислий приклад додому. Але додавання занадто багато забирає простоту.

— ndoogan

Я думаю, що це чудова відповідь - вона демонструє дуже поширений тип нарядки, який по суті запам'ятовує дані тренувань, особливо звичайний випадок, коли кількість даних про навчання недостатня для насичення виразної сили моделі.

— Кен Вільямс

14

Цей склад складається, але я сподіваюся, що він ілюструє випадок.

Приклад 1

$k=100$ $n=100$

set.seed(123)
k <- 100
data <- replicate(k, rnorm(100))
colnames(data) <- make.names(1:k)
data <- as.data.frame(data)

Тепер приєднаємо до нього лінійну регресію:

fit <- lm(X1 ~ ., data=data)

Ось підсумок перших десяти прогнозів:

> summary(fit)

Call:
lm(formula = X1 ~ ., data = data)

Residuals:
ALL 100 residuals are 0: no residual degrees of freedom!

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.502e-01         NA      NA       NA
X2           3.153e-02         NA      NA       NA
X3          -6.200e-01         NA      NA       NA
X4           7.087e-01         NA      NA       NA
X5           4.392e-01         NA      NA       NA
X6           2.979e-01         NA      NA       NA
X7          -9.092e-02         NA      NA       NA
X8          -5.783e-01         NA      NA       NA
X9           5.965e-01         NA      NA       NA
X10         -8.289e-01         NA      NA       NA
...
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 99 and 0 DF,  p-value: NA

результати виглядають досить дивно, але давайте побудуємо це.

введіть тут опис зображення

$X_1$ $X_1$

> sum(abs(data$X1-fitted(fit)))
[1] 0

Це нуль, тому сюжети не брехали нам: модель ідеально підходить. І наскільки точно це в класифікації?

> sum(data$X1==fitted(fit))
[1] 100

$X_1$

Приклад 2

Ще один приклад. Дозволяємо скласти ще кілька даних:

data2 <- cbind(1:10, diag(10))
colnames(data2) <- make.names(1:11)
data2 <- as.data.frame(data2)

так це виглядає так:

   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
1   1  1  0  0  0  0  0  0  0   0   0
2   2  0  1  0  0  0  0  0  0   0   0
3   3  0  0  1  0  0  0  0  0   0   0
4   4  0  0  0  1  0  0  0  0   0   0
5   5  0  0  0  0  1  0  0  0   0   0
6   6  0  0  0  0  0  1  0  0   0   0
7   7  0  0  0  0  0  0  1  0   0   0
8   8  0  0  0  0  0  0  0  1   0   0
9   9  0  0  0  0  0  0  0  0   1   0
10 10  0  0  0  0  0  0  0  0   0   1

і тепер давайте підходимо до лінійної регресії до цього:

fit2 <- lm(X1~., data2)

тому ми отримуємо наступні оцінки:

> summary(fit2)

Call:
lm(formula = X1 ~ ., data = data2)

Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)       10         NA      NA       NA
X2                -9         NA      NA       NA
X3                -8         NA      NA       NA
X4                -7         NA      NA       NA
X5                -6         NA      NA       NA
X6                -5         NA      NA       NA
X7                -4         NA      NA       NA
X8                -3         NA      NA       NA
X9                -2         NA      NA       NA
X10               -1         NA      NA       NA
X11               NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 9 and 0 DF,  p-value: NA

$R^2 = 1$ $X_1$

X_{1} = 10 + X_{2} \times - 9 + X_{3} \times - 8 + X_{4} \times - 7 + X_{5} \times - 6 + X_{6} \times - 5 + X_{7} \times - 4 + X_{8} \times - 3 + X_{9} \times - 2

$X_1 = 10 + X_2 \times -9 + X_3 \times -8 + X_4 \times -7 + X_5 \times -6 + X_6 \times -5 + X_7 \times -4 + X_8 \times -3 + X_9 \times -2$

$X_1 = 1$

10 + 1 \times - 9 + 0 \times - 8 + 0 \times - 7 + 0 \times - 6 + 0 \times - 5 + 0 \times - 4 + 0 \times - 3 + 0 \times - 2

$10 + 1 \times -9 + 0 \times -8 + 0 \times -7 + 0 \times -6 + 0 \times -5 + 0 \times -4 + 0 \times -3 + 0 \times -2$

Це досить зрозуміло. Ви можете вважати Приклад 1 подібним до Прикладу 2, але додано певний "шум". Якщо у вас є досить великі дані і ви використовуєте їх для "передбачення" чогось, то іноді одна "особливість" може переконати вас у тому, що у вас є "шаблон", який добре описує вашу залежну змінну, хоча це може бути просто збігом обставин. У Прикладі 2 насправді нічого не передбачається, але точно так само сталося в Прикладі 1, просто значення змінних були різними.

Приклади реального життя

Прикладом реального життя для цього є прогнозування терактів на 11 вересня 2001 року, спостерігаючи за "шаблонами" у числах, випадковим чином намальованими комп'ютерними псевдовипадковими генераторами чисельності Глобальною свідомістю проекту, або "таємними повідомленнями" в "Мобі Дік", які розкривають факти про вбивства відомих людей (натхненний подібними висновками в Біблії ).

Висновок

Якщо ви будете виглядати досить важко, ви знайдете «візерунки» для чого завгодно. Однак ці зразки не дозволять вам дізнатися нічого про Всесвіт і не допоможуть вам зробити якісь загальні висновки. Вони ідеально підходять до ваших даних, але виявляться марними, оскільки не підходять нічого іншого, ніж самі дані. Вони не дозволять робити будь-які обґрунтовані прогнози на вибірці, адже те, що вони роблять, це швидше наслідувати, ніж описувати дані.

— Тім
джерело

5

Я б запропонував приклади реального життя на вершину цієї відповіді. Це та частина, яка насправді має відношення до питання - решта - підтяжка.

— shadowtalker

8

Поширена проблема, що призводить до перевиконання в реальному житті, полягає в тому, що, крім термінів для правильно заданої моделі, ми, можливо, додали ще щось сторонне: невідповідні повноваження (або інші перетворення) правильних термінів, нерелевантні змінні або невідповідні взаємодії.

Це трапляється в декількох регресіях, якщо ви додасте змінну, яка не повинна відображатися у правильно вказаній моделі, але не хочете її скидати, оскільки ви боїтеся викликати пропущені змінні зміщення . Звичайно, ви не можете дізнатися, що ви неправильно включили його, оскільки ви не можете бачити всю сукупність, лише ваш зразок, тому не можете точно знати, що таке правильна специфікація. (Як в коментарях зазначає @Scortchi, може не бути такого поняття, як "правильна" специфікація моделі - в цьому сенсі мета моделювання - пошук "достатньо хорошої" специфікації; уникнення перевиконання передбачає уникнення складності моделі більше, ніж можна отримати з наявних даних.) Якщо ви хочете, щоб справжній приклад переозброєння, це відбувається щоразуви кидаєте всіх потенційних прогнозів в регресійну модель, якщо будь-який з них насправді не має стосунку з відповіддю, коли ефекти інших виявляться частково.

При такому типі перевитрати хороша новина полягає в тому, що включення цих нерелевантних термінів не вводить упередженість ваших оцінок, а у дуже великих зразках коефіцієнти нерелевантних термінів повинні бути близькими до нуля. Але є й погані новини: оскільки обмежена інформація з вашого зразка зараз використовується для оцінки більшої кількості параметрів, вона може робити це лише з меншою точністю - тому стандартні помилки на справді відповідних умовах збільшуються. Це також означає, що вони, ймовірно, знаходяться далі від справжніх значень, ніж оцінки від правильно заданої регресії, а це, в свою чергу, означає, що якщо дано нові значення ваших пояснювальних змінних, прогнози з переоснащеної моделі будуть менш точними, ніж для правильно вказана модель.

Ось графік журналу ВВП проти сукупності журналів для 50 штатів США у 2010 році. Вибрано випадкову вибірку з 10 штатів (виділено червоним кольором), і для цього зразка ми підходимо до простої лінійної моделі та полінома ступеня 5. Для вибірки балів, поліном має додаткову ступінь свободи, що дозволяє йому «викручуватися» ближче до спостережуваних даних, ніж може пряма лінія. Але 50 станів в цілому підкоряються майже лінійному співвідношенню, тому прогнозована ефективність поліноміальної моделі в 40 точках, що не мають вибірки, є дуже поганою порівняно з менш складною моделлю, особливо при екстраполяції. Поліном ефективно підходив до частини випадкової структури (шуму) вибірки, яка не узагальнювалась для широкої сукупності. Це було особливо погано при екстраполяції за межі спостережуваного діапазону вибірки.це перегляд цієї відповіді.)

Екстраполяція із надмірно складної моделі

R $y_i = 2x_{1,i} + 5 + \epsilon_i$ $x_2$ $x_3$ $x_1$ $x_2$ $x_3$

require(MASS) #for multivariate normal simulation    
nsample <- 25   #sample to regress 
nholdout <- 1e6  #to check model predictions
Sigma <- matrix(c(1, 0.5, 0.4, 0.5, 1, 0.3, 0.4, 0.3, 1), nrow=3)
df <- as.data.frame(mvrnorm(n=(nsample+nholdout), mu=c(5,5,5), Sigma=Sigma))
colnames(df) <- c("x1", "x2", "x3")
df$y <- 5 + 2 * df$x1 + rnorm(n=nrow(df)) #y = 5 + *x1 + e

holdout.df <- df[1:nholdout,]
regress.df <- df[(nholdout+1):(nholdout+nsample),]

overfit.lm <- lm(y ~ x1*x2*x3, regress.df)
correctspec.lm <- lm(y ~ x1, regress.df)
summary(overfit.lm)
summary(correctspec.lm)

holdout.df$overfitPred <- predict.lm(overfit.lm, newdata=holdout.df)
holdout.df$correctSpecPred <- predict.lm(correctspec.lm, newdata=holdout.df)
with(holdout.df, sum((y - overfitPred)^2)) #SSE
with(holdout.df, sum((y - correctSpecPred)^2))

require(ggplot2)
errors.df <- data.frame(
    Model = rep(c("Overfitted", "Correctly specified"), each=nholdout),
    Error = with(holdout.df, c(y - overfitPred, y - correctSpecPred)))
ggplot(errors.df, aes(x=Error, color=Model)) + geom_density(size=1) +
    theme(legend.position="bottom")

Ось мої результати за один запуск, але найкраще кілька разів запустити моделювання, щоб побачити ефект різних згенерованих зразків.

>     summary(overfit.lm)

Call:
lm(formula = y ~ x1 * x2 * x3, data = regress.df)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.22294 -0.63142 -0.09491  0.51983  2.24193 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.85992   65.00775   0.290    0.775
x1          -2.40912   11.90433  -0.202    0.842
x2          -2.13777   12.48892  -0.171    0.866
x3          -1.13941   12.94670  -0.088    0.931
x1:x2        0.78280    2.25867   0.347    0.733
x1:x3        0.53616    2.30834   0.232    0.819
x2:x3        0.08019    2.49028   0.032    0.975
x1:x2:x3    -0.08584    0.43891  -0.196    0.847

Residual standard error: 1.101 on 17 degrees of freedom
Multiple R-squared: 0.8297,     Adjusted R-squared: 0.7596 
F-statistic: 11.84 on 7 and 17 DF,  p-value: 1.942e-05

$x_1$ $R^2$

>     summary(correctspec.lm)

Call:
lm(formula = y ~ x1, data = regress.df)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4951 -0.4112 -0.2000  0.7876  2.1706 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.7844     1.1272   4.244 0.000306 ***
x1            1.9974     0.2108   9.476 2.09e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.036 on 23 degrees of freedom
Multiple R-squared: 0.7961,     Adjusted R-squared: 0.7872 
F-statistic:  89.8 on 1 and 23 DF,  p-value: 2.089e-09

$R^2$ $R^2$

>     with(holdout.df, sum((y - overfitPred)^2)) #SSE
[1] 1271557
>     with(holdout.df, sum((y - correctSpecPred)^2))
[1] 1052217

$R^2$ $\hat{y}$ $y$ (і мав більше ступенів свободи зробити це, ніж правильно вказана модель, тому це могло призвести до "кращого" пристосування). Подивіться на суму помилок у квадраті для прогнозів набору утримування, які ми не використовували для оцінки коефіцієнтів регресії, і ми можемо побачити, наскільки гірше виконана переоснащена модель. Насправді правильно вказана модель - це та, яка дає найкращі прогнози. Ми не повинні базувати свою оцінку прогнозних показників на результатах із набору даних, які ми використовували для оцінки моделей. Ось графік щільності помилок, правильна специфікація моделі дає більше помилок, близьких до 0:

Помилки передбачення на наборі утримування

Моделювання чітко представляє безліч релевантних ситуацій у реальному житті (просто уявіть будь-яку відповідь у реальному житті, яка залежить від одного передбачувача, і уявіть, що в модель включити сторонні "прогноктори"), але має перевагу, що ви можете грати з процесом генерування даних. , розміри вибірки, характер переобладнаної моделі тощо. Це найкращий спосіб вивчити наслідки перевиконання, оскільки для спостережуваних даних, як правило, ви не маєте доступу до DGP, і це все ще "реальні" дані в тому сенсі, що ви можете їх вивчити та використовувати. Ось кілька вартісних ідей, з якими варто експериментувати:

Запустіть моделювання кілька разів і подивіться, як результати відрізняються. Ви знайдете більшу мінливість, використовуючи невеликі розміри вибірки, ніж великі.
n <- 1e6 $x_1$
Спробуйте зменшити кореляцію між змінними предиктора, граючи з позадіагональними елементами матриці дисперсії-коваріації Sigma. Просто пам’ятайте, щоб зберегти це позитивним напіввизначеним (що включає симетричність). Ви повинні знайти, якщо зменшити мультиколінеарність, переоснащена модель працює не так вже й погано. Але майте на увазі, що в реальному житті трапляються корельовані прогнози.
Спробуйте експериментувати із специфікацією переобладнаної моделі. Що робити, якщо включити багаточлени?
$y$ df$y <- 5 + 2*df$x1 + rnorm(n=nrow(df)) $y$ $x_i$
$y$ $x_2$ $x3$ $x_1$ df$y <- 5 + 2 * df$x1 + 0.1*df$x2 + 0.1*df$x3 + rnorm(n=nrow(df)) $x_2$ $x_3$ $x$ $x_1$ $x_2$ $x_3$ nsample <- 25 $x_1$ $x_2$ $x_3$ настільки важко розрізнити у малому зразку, повна модель ефективно використовує гнучкість від її додаткових ступенів свободи, щоб "підлаштувати шум", і це погано узагальнює. Але зnsample <- 1e6, вона може оцінити слабкі ефекти досить добре, а моделювання показує, що складна модель має прогнозовану силу, що перевершує просту. Це показує, наскільки «надмірний примір» є проблемою як складності моделі, так і наявних даних.

— Срібної рибки
джерело

1

(-1) Досить важливо розуміти, що перевиконання не є результатом лише включення "невідповідних" або "сторонніх" термінів, які не відображатимуться у правильно заданій моделі. Дійсно, можна стверджувати, що у багатьох додатках ідея простої справжньої моделі не має особливого сенсу, а завдання прогнозного моделювання полягає у створенні моделі, складність якої пропорційна кількості наявних даних.

— Scortchi

1

Я надішлю ваше фото моєму конгресмену на підтримку імміграційної реформи

— прототип

1

(+1) Я думаю, що правки покращують пояснення надмірного пристосування, не приносячи шкоди зрозумілості.

— Scortchi

1

@Aksakal Я намагався вирішити питання: "Мені потрібна допомога щодо того, як придумати приклад із реального світу, який стосується переозброєння". Незрозуміло, чи ОП попросили знайти опублікований документ, який надмірно підходить, або - більш природне значення "придумати" - побудувати власний приклад. Якщо перевиконання погано, то чому в реальному житті хтось переобладнає? Моя відповідь про те, що аналітик може скористатися помилкою щодо переоціненої моделі щодо недостатньо визначеної моделі (через страх перед ОВБ або підозрою, що відносини криволінійні) є таким прикладом. Графік / симуляція просто показують наслідок: поганий прогноз поза вибіркою

— Срібна рибка

1

@Aksakal Мені не ясно, що поліноміальна модель є "нереальною" для графіка. Домінуюча особливість - лінійна, але чи ми знаємо, що вона повністю лінійна? Якби у нас був доступ до гіпотетичних мільйонів політичних одиниць, і я мусив би ставитись до свого життя в будь-якому випадку, я б вважав, що ми могли б виявити незначну криволінійну взаємозв'язок, ніж те, що всі поліномічні терміни були б незначними. Незважаючи на це, якщо підходити до низького n, лише лінійна модель дозволяє уникнути перевиконання. (Ми не можемо вирішити це через складність вибірки з теоретично нескінченної сукупності "можливих штатів США"; це перевага змодельованих даних!)

— Silverfish

4

Коли я сам намагався зрозуміти це, я почав роздумувати над аналогіями з описом реальних об'єктів, тому, мабуть, це такий самий «реальний світ», як ви можете зрозуміти загальну ідею:

Скажіть, ви хочете описати комусь поняття стільця, щоб вони отримали концептуальну модель, яка дозволяє передбачити, чи знайдеться новий предмет, який вони знайдуть. Ви заходите до Ikea і отримуєте зразок стільців, і починаєте описувати їх, використовуючи дві змінні: це предмет з 4 ніжками, де ви можете сидіти. Ну, це також може описувати табурет або ліжко чи багато іншого. Ваша модель є недостатньою, як якщо б ви намагалися скласти складний розподіл із занадто малою кількістю змінних - багато речей, що не мають крісел, будуть ідентифіковані як стільці. Отже, давайте збільшимо кількість змінних, додамо, що об’єкт повинен мати спинку, наприклад. Тепер у вас є досить прийнятна модель, яка описує ваш набір стільців, але достатньо загальна, щоб можна було визначити новий об'єкт як один. Ваша модель описує дані та здатна робити прогнози. Однак, скажімо, у вас є набір, де всі стільці чорні або білі та виготовлені з дерева. Ви вирішили включити ці змінні у свою модель, і раптом вона не визначить пластиковий жовтий стілець як стілець. Отже, ви переозброїли свою модель, ви включили функції вашого набору даних так, ніби вони взагалі були характеристиками стільців (якщо ви віддаєте перевагу, ви визначили "шум" як "сигнал", інтерпретуючи випадкові зміни з вашого зразка як особливість цілого «справжнього світського крісла»). Отже, ви або збільшуєте зразок і сподіваєтесь включити новий матеріал і кольори, або зменшите кількість змінних у ваших моделях. t визначити пластиковий жовтий стілець як стілець. Отже, ви переозброїли свою модель, ви включили функції вашого набору даних так, ніби вони взагалі були характеристиками стільців (якщо ви віддаєте перевагу, ви визначили "шум" як "сигнал", інтерпретуючи випадкові зміни з вашого зразка як особливість цілого «справжнього світського крісла»). Отже, ви або збільшуєте зразок і сподіваєтесь включити новий матеріал і кольори, або зменшите кількість змінних у ваших моделях. t визначити пластиковий жовтий стілець як стілець. Отже, ви переозброїли свою модель, ви включили функції вашого набору даних так, ніби вони взагалі були характеристиками стільців (якщо ви віддаєте перевагу, ви визначили "шум" як "сигнал", інтерпретуючи випадкові зміни з вашого зразка як особливість цілого «справжнього світського крісла»). Отже, ви або збільшуєте зразок і сподіваєтесь включити новий матеріал і кольори, або зменшите кількість змінних у ваших моделях.

Це може бути спрощеною аналогією та розбиттям під час подальшої перевірки, але я думаю, що це працює як загальна концептуалізація ... Дайте мені знати, чи потребує уточнення якась частина.

— joaofm
джерело

Поясніть, будь ласка, більш детально ідею "шуму" та "сигналу", а також те, що надмірна модель описує шум, тому у мене виникають проблеми з розумінням цього.

— quirik

4

При прогнозному моделюванні ідея полягає у використанні підручних даних для виявлення існуючих тенденцій, які можна узагальнити до майбутніх даних. Включивши у вашу модель змінні, які мають незначний, незначний ефект, ви відмовляєтесь від цієї ідеї. Те, що ви робите, - це врахування конкретних тенденцій у вашому конкретному зразку, які існують лише через випадковий шум замість справжньої основної тенденції. Іншими словами, модель із занадто великою кількістю змінних підходить для шуму, а не для виявлення сигналу.

Ось перебільшена ілюстрація того, про що я говорю. Тут точки - це спостережувані дані, а лінія - наша модель. Подивіться, що ідеально підійде - яка чудова модель! Але чи дійсно ми виявили тенденцію чи просто підходимо до шуму? Ймовірно, останні.

введіть тут опис зображення

— TrynnaDoStat
джерело

4

Форма надмірного пристосування є досить поширеною у спорті, а саме виявити закономірності пояснення минулих результатів чинниками, які не мають або в кращому випадку розпливчасті сили для прогнозування майбутніх результатів. Загальною особливістю цих "шаблонів" є те, що вони часто ґрунтуються на дуже небагатьох випадках, так що чистий шанс, мабуть, є найбільш правдоподібним поясненням цієї моделі.

Приклади включають такі речі, як "цитати", складені мною, але часто схожі)

Команда А виграла всі ігри X, оскільки тренер почав носити свою чарівну червону куртку.

Схожі:

Ми не будемо голитися під час плей-офф, адже це допомогло нам виграти минулі Ігри.

Менш забобонний, але така форма надягання:

Борусія Дортмунд ніколи не програвала домашню гру Ліги чемпіонів проти іспанського суперника, коли програла попередню виїзну гру Бундесліги більш ніж на два голи, забивши хоч один раз.

Схожі:

Роджер Федерер виграв усі свої виступи в Кубку Девіса проти опонентів Європи, коли він, принаймні, дістався півфіналу на Australian Open цього року.

Перші два - досить очевидна дурниця (принаймні, для мене). Останні два приклади цілком можуть бути справжніми у зразку (тобто в минулому), але я був би найбільш радий зробити ставку на опонента, який дозволив би цій "інформації" суттєво вплинути на його шанси на те, що Дортмунд переміг Мадрид, якщо вони програли 4: 1 у Шальке в попередню суботу або Федерер побив Джоковича, навіть якщо він виграв Australian Open у тому році.

— Крістоф Ганк
джерело

3

Ось приклад "реального світу" не в тому сенсі, що хтось трапився на нього в дослідженні, а в тому сенсі, що він використовує повсякденні поняття без багатьох статистичних термінів. Можливо, такий спосіб сказати, що буде кориснішим для тих, хто навчається в інших сферах.

Уявіть, що у вас є база даних з даними про пацієнтів із рідкісним захворюванням. Ви аспірант, який хочете дізнатися, чи можете ви визнати фактори ризику цього захворювання. У цій лікарні було 8 випадків захворювання, і ви зафіксували 100 випадкових відомостей про них: вік, раса, порядок народження, чи хворіли вони на кір як дитина, як би там не було. Ви також записали дані для 8 пацієнтів без цього захворювання.

Ви вирішили використовувати наступні евристичні для факторів ризику: якщо фактор приймає задане значення для більш ніж одного з ваших хворих пацієнтів, але в 0 ваших контрольних груп, ви вважатимете це фактором ризику. (У реальному житті ви б скористалися кращим методом, але я хочу зробити це простим). Ви дізнаєтесь, що 6 ваших пацієнтів є вегетаріанцями (але жодна контрольна група не вегетаріанська), 3 - предки шведських, і двоє з них мають заїкання з порушенням мови. З-поміж інших 97 факторів нічого, що трапляється у більш ніж одного пацієнта, є, але немає серед контрольних груп.

Через роки хтось інший захоплюється цією сирітською хворобою і повторює ваше дослідження. Оскільки він працює у більшій лікарні, яка співпрацює з іншими лікарнями, він може використовувати дані про 106 випадків, на відміну від ваших 8 випадків. І він виявляє, що поширеність заїкань однакова у групі пацієнтів та у контрольній групі; заїкання не є фактором ризику.

Тут сталося те, що у вашій невеликій групі випадково було 25% заїкань. Ваш евристик не мав можливості знати, чи це медично важливо чи ні. Ви дали йому критерії, щоб вирішити, коли ви вважаєте, що шаблон у даних є "цікавим", достатньо для включення в модель, і відповідно до цих критеріїв заїкання було досить цікавим.

Ваша модель була доопрацьована, тому що вона помилково включила параметр, який насправді не має значення в реальному світі. Він відповідає вашій вибірці - 8 пацієнтів + 8 контрольних - дуже добре, але це не відповідає реальним даним світу. Коли модель описує ваш зразок краще, ніж описує реальність, це називається переобладнаним.

Якби ви вибрали поріг у 3 з 8 пацієнтів, які мали особливість, цього не сталося б - але у вас був би більший шанс пропустити щось насправді цікаве. Особливо в медицині, де багато захворювань трапляються лише у невеликої частини людей, які виявляють фактор ризику, це важко зробити. І є методи, щоб цього уникнути (в основному, порівняйте з другим зразком і подивіться, чи може пояснювальна сила залишатися однаковою чи падати), але це тема для іншого питання.

— румчо
джерело

Дуже нагадує xkcd.com/882

— Флоріс

3

Ось приклад справжнього пристосування, який я допомагав вчиняти, а потім намагався (безуспішно) відвернути:

У мене було кілька тисяч незалежних, біваріантних часових рядів, кожен з яких не більше 50 точок даних, і проект моделювання передбачав пристосування векторної авторегресії (VAR) до кожного. Не було спроб регуляризувати спостереження, оцінити компоненти дисперсії чи щось подібне. Час часу вимірювався протягом одного року, тому дані підлягали різним сезонним та циклічним ефектам, які з’являлися лише один раз у кожному часовому ряду.

Одне підмножина даних показало неймовірно високу швидкість причинності Грейнджера порівняно з рештою даних. Точкові перевірки показали, що в цьому підмножині спостерігаються позитивні сплески один або два відставання, але з контексту було зрозуміло, що обидва шипа спричинені безпосередньо зовнішнім джерелом і що один сплеск не викликає іншого. Позамобільні прогнози використання цих моделей, ймовірно, були б абсолютно помилковими, тому що моделі були переоснащені: замість того, щоб «згладжувати» шипи шляхом усереднення їх до решти даних, було недостатньо спостережень, що шипи насправді рухали оцінки.

В цілому, я не думаю, що проект пішов погано, але я не думаю, що він дав результати, які були десь поруч настільки корисними, як вони могли бути. Частина причини цього полягає в тому, що багато незалежних VAR-процедур, навіть із лише одним або двома відставаннями, важко розмежовували дані та шум, і тому вони підходили до останніх за рахунок надання розуміння колишній.

— shadowtalker
джерело

1

Багато розумних людей у цій темі --- багато набагато більше розбираються в статистиці, ніж я. Але я все ще не бачу легкого для розуміння прикладу мирян. Приклад Президента не дуже вражає законопроект з точки зору типового набору, оскільки, хоча технічно він є надмірним у кожному з його диких претензій, зазвичай, надмірна модель переповнює - ВСЕ - заданий шум, а не лише один його елемент.

Мені дуже подобається діаграма в поясненні компромісного зміщення у вікіпедії: http://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff

(Найнижча діаграма є прикладом накладання).

Мені важко думати про приклад справжнього світу, який не схожий на повну мамбо-джамбо. Ідея полягає в тому, що дані є частиною, спричиненою вимірюваними, зрозумілими змінними --- частиною випадкового шуму. Спроба моделювати цей шум як зразок дає вам неточність.

Класичний приклад - моделювання на основі SOLELY на R ^ 2 в MS Excel (ви намагаєтесь прирівняти рівняння / модель буквально якомога ближче до даних, використовуючи поліноми, як би не було безглуздо).

Скажіть, ви намагаєтеся моделювати продаж морозива як залежність від температури. У вас є дані "реального світу". Ви розміщуєте дані та намагаєтесь максимально використовувати R ^ 2. Ви знайдете, використовуючи дані в реальному світі, найбільш близьке відповідне рівняння не є лінійним або квадратичним (що мало б логічний сенс). Як і майже у всіх рівняннях, чим більше безглуздих доданих поліномів (x ^ 6 -2x ^ 5 + 3x ^ 4 + 30x ^ 3-43.2x ^ 2-29x) - чим ближче вони відповідають даним. То як це розумно співвідносить температуру з продажем морозива? Як би ви пояснили цей смішний поліном? Правда, це не справжня модель. Ви перевиконали дані.

Ви приймаєте неврахуваний шум - який, можливо, був спричинений стимулюванням продажів чи іншим змінним або "шумом", як метелик, що махає крилами в космосі (щось ніколи не передбачуване) --- і намагався моделювати це на основі температури. Зараз зазвичай, якщо ваш шум / помилка не в середньому до нуля або автоматично корелюється тощо, це означає, що там є більше змінних --- і тоді в кінцевому підсумку ви отримуєте загально випадковий розподілений шум, але все-таки це найкраще, що я можу поясніть це.

— Джон Бабсон
джерело

2

Пізніша «модель» в Президентському комічного чи вмістити даний шум.

— Бен Фогт

Комікс не є аналогічним більшості вигідних сценаріїв, на мою думку, хоча смішні правила точно б передбачили всіх минулих президентів. Більшість прогнозів не прогнозують дихотомічну змінну. Крім того, вона з гумором згадує саме правило, яке буде порушено на наступних виборах - іншими словами, модель нарядів постійно гарантується неправильно, що робить його ідеальним передвісником майбутнього. Більшість моделей набору не ґрунтуються на 1 помилковій змінній, яку можна перевірити на те, що вона є стороннім, вона, як правило, базується на занадто великій кількості змінних в моделі, а випадково всі вони кидаються для зменшення R ^ 2.

— Джон Бабсон

0

Більшість методів оптимізації мають деякі фактори випромінювання, такі як гіперпараметри. Реальний приклад:

$N_{min} = 5,\ \ f_{inc} = 1.1,\ \ f_{dec} = 0.5,\ \ \alpha_{start} = 0.1, \ \ f_{\alpha} = 0.99.$

Це над пристосуванням чи просто підходить до певного набору проблем?

— деніс
джерело

0

Навчання до іспиту шляхом запам’ятовування відповідей на минулорічний іспит.

— Інголіфи
джерело

0

Моя улюблена - «формула 3964», виявлена перед змаганнями з футболу у 1998 році:

Бразилія виграла чемпіонати у 1970 та 1994 роках. Підсумуйте ці 2 числа, і ви отримаєте 3964; Німеччина виграла у 1974 та 1990 роках, знову склавши 3964; те саме, що Аргентина перемагала у 1978 та 1986 роках (1978 + 1986 = 3964).

Це дуже дивний факт, але кожен може побачити, що не бажано будувати прогноз на цьому правилі. Дійсно, правило передбачає, що переможцем Чемпіонату світу 1998 року повинна була стати Англія з 1966 + 1998 = 3964, а Англія виграла в 1966 році. Це не сталося, і переможцем стала Франція.

— sdd
джерело

-2

Трохи інтуїтивно, але, можливо, це допоможе. Скажімо, ви хочете вивчити якусь нову мову. Як ти вчишся? замість того, щоб вивчати правила в курсі, ви використовуєте приклади. Зокрема, телепередачі. Тож вам подобаються кримінальні шоу, і ви переглядаєте кілька серій деяких поліцейських шоу. Потім ви знімаєте ще одне кримінальне шоу і переглядаєте серію, яка складається з цього. До третього шоу ви бачите - ви знаєте майже все, жодних проблем. Вам не потрібні англійські субтитри.

Але потім ви спробуєте свою нещодавно вивчену мову на вулиці під час наступного візиту, і ви розумієте, що не можете говорити ні про що, окрім як сказати "офіцер! Той чоловік взяв мою сумку і застрелив цю даму!". У той час як ваша "помилка в навчанні" була нульовою, ваша "тестова помилка" висока, через "перевиконання" мови, вивчення лише обмеженого набору слів і припущення, що її достатньо.

— йокі
джерело

8

Це не надмірно, це просто вивчення підмножини мови. Перевизначення було б, якщо після перегляду шоу про злочини ви дізнаєтесь цілу, але дивну мову, яка збігається з англійською на всі теми, пов’язані зі злочинністю, але є цілковитою потворністю (або, можливо, китайською), коли ви говорите про будь-яку іншу тему.

— амеба