Чи розділення даних на тестові та навчальні набори суто "статистика"?


11

Я студент фізики, який вивчає машинне навчання / науку даних, тому не маю на увазі, щоб із цим питанням виникали будь-які конфлікти :) Однак значна частина будь-якої програми з фізики в університеті - це робити лабораторії / експерименти, що означає багато даних обробка та статистичний аналіз. Однак я помічаю різку різницю між тим, як фізики поводяться з даними, і тим, як мої наукові дані / статистичні навчальні книги обробляють дані.

Ключова відмінність полягає в тому, що при спробі виконувати регресію для даних, отриманих в результаті експериментів з фізики, алгоритми регресії застосовуються до набору даних WHOLE , абсолютно немає розбиття на навчальні та тестові набори. У світі фізики R ^ 2 або деякий тип псевдо-R ^ 2 розраховується для моделі на основі всього набору даних. У світі статистики дані майже завжди розбиваються на 80-20, 70-30, і т.д. ..., а потім модель оцінюється на основі даних тесту.

Є також деякі основні експерименти з фізики (ATLAS, BICEP2 тощо), які ніколи не роблять розбиття цих даних, тому мені цікаво, чому існує така непохитна різниця між способом статистики фізиків / експерименталістів та способом даних вчених робити статистику.


1
(+1) дуже приємне запитання (на що я не маю часу правильно відповісти). Коментар: фізика має розкіш "справжніх експериментів"; загалом контрольовані / лабораторні умови, переважно чітко визначені результати / змінні та припускаються повторюваність. Звичайні проекти з питань охорони здоров'я / економетрії / опитування (згадуючи декілька очевидних підполів) просто не отримують цього. Помилковий, сезонності (залежність від часу) і в цілому концепція дрейфу є широко поширене в статистиці , так це «розбиття даних» є одним з очевидних способів запобігти абсолютно дурні результати. Крім того, не всі оцінювачі створені однаково ефективно. :)
usεr11852

3
Ви знайдете безліч відповідного обговорення і фону в недавньому дискусійному документі Девіда Донохью, статистика професор Стенфордський: courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Див зокрема , обговорення «Predictive культури "на противагу традиційній статистиці.
Гордон Сміт

1
Я думаю, що це "передбачення у відсутності теорії", що є невеликим підмножиною "статистики" та великим підмножиною машинного навчання.
The Laconic

статистики також не ділять свої дані (p <.05)
rep_ho

@rep_ho деякі - можливо, багато - статистики, пов'язані із ситуаціями, коли важливим є вибірка прогнозування (а деякі це роблять давно). такі ідеї, як перехресна перевірка та статистика відмовок (наприклад) існують протягом багатьох віків. Однак статистики, як правило, не поділяються лише один раз, якщо це неминуче. Це може залежати від того, з якими статистиками ви спілкуєтесь
Glen_b -Встановити Моніку

Відповіді:


6

Не всі статистичні процедури поділяються на дані навчання / тестування, які також називаються "перехресною валідацією" (хоча вся процедура передбачає трохи більше, ніж це).

Скоріше, це методика, яка спеціально використовується для оцінки помилок , що не мають вибірки ; тобто наскільки добре ваша модель спрогнозує нові результати, використовуючи новий набір даних? Це стає дуже важливим питанням, якщо у вас є, наприклад, дуже велика кількість прогнозів щодо кількості вибірок у вашому наборі даних. У таких випадках побудувати модель з великою помилкою у вибірці, але з помилкою помилки вибірки (так звана "надмірна відповідність") дуже просто. У випадках, коли у вас є як велика кількість предикторів, так і велика кількість вибірок, перехресне підтвердження є необхідним інструментом, який допоможе оцінити, наскільки добре буде поводитися модель при прогнозуванні нових даних. Це також важливий інструмент при виборі між конкуруючими прогнозними моделями.

З іншого боку, перехресне підтвердження майже завжди використовується лише при спробі побудови прогнозної моделі. Взагалі, це не дуже корисно моделям, коли ви намагаєтесь оцінити ефект якогось лікування. Наприклад, якщо ви порівнюєте розподіл міцності на розрив між матеріалами A і B ("обробка" є типом матеріалу), перехресне підтвердження не буде необхідним; в той час як ми сподіваємося , що наша оцінка ефективності лікування узагальнююче з зразка, для більшості проблем класична статистична теорія може відповісти на це (тобто «стандартні помилки» оцінок) більш точно , ніж крос-перевірки. На жаль, класична статистична методологія 1для стандартних помилок не витримується у випадку надмірного розміщення. Перехресне підтвердження часто робить набагато краще в цьому випадку.

З іншого боку, якщо ви намагаєтеся передбачити, коли матеріал розірветься на основі 10 000 виміряних змінних, які ви кинете в якусь модель машинного навчання на основі 100 000 спостережень, у вас виникнуть багато проблем зі створенням чудової моделі без перехресної перевірки!

Я здогадуюсь у багатьох зроблених експериментах з фізики, ви, як правило, зацікавлені в оцінці ефектів. У цих випадках потреби в перехресній валідації є дуже мало.

1 Можна стверджувати, що байєсівські методи з інформативними пріорами є класичною статистичною методологією, яка стосується надмірного задоволення. Але це вже інша дискусія.

Побічна примітка: хоча крос-валідація вперше з’явилася в статистичній літературі і її, безумовно, використовують люди, які називають себе статистиками, вона стала основним необхідним інструментом у машинному навчанні. Багато моделей статистики добре працюватимуть без використання перехресної перевірки, але майже всі моделі, які вважаються "моделями прогнозування машинного навчання", потребують перехресної перевірки, оскільки вони часто вимагають підбору параметрів настройки, без практичного переходу майже неможливо. -визначення.


нp

@ usεr11852: так, але вибирати розумні штрафи за регуляризацію без перехресної перевірки майже неможливо (крім думки про штрафні санкції як байосівських пріорів, але це важко з моделями чорної скриньки!). І хоча ми хочемо, щоб наші результати порівняння від A до B не витримували вибірки, це, як правило, не є проблемою, яка вимагає налаштування моделі (як це часто передбачає прогноз), і при порівняно низькій кількості параметрів класична статистична теорія може впоратися з цим без використання перехресної перевірки.
Кліф АВ

Це круговий аргумент, для регуляризації використовується крос-валідація, але перехресна перевірка робиться для регуляризації. Ось чому я коментував дещо проти цього для початку. Я думаю, що статистичний висновок / причинність відходить від цього немодельного підходу до налаштування (див., Наприклад, 2016 Johansson et al., "Навчання уявленням для контрфактичного висновку" - такий безладний красивий документ). Нарешті, дослідження фундаментальної фізики, коли вони представляють важкі проблеми, також можуть покладатися на підходи до ML (наприклад, виклик машинного навчання Хіггса Босона ).
usεr11852

@ usεr11852 Регуляризація не "використовує" перехресну перевірку, а навпаки, ваш параметр настройки для регуляризації вибирається за допомогою перехресної перевірки. Наприклад, див. glment'S cv.glmnetдля всієї процедури в хорошій компактній функції.
Кліф АВ

1
Крім того, я ніколи не висловлював твердження, що фізичні дослідження не можуть використовувати підходи МЛ, ані перехресну перевірку! Я лише пояснював, що крос-валідація зазвичай використовується спеціально для вибору між складними моделями / налаштуваннями параметрів в прогностичних моделях, і що в багатьох класичних фізичних експериментах перехресне підтвердження не потрібно. Тож те, що фізики роблять з цими даними, не обов'язково суперечить тому, що робитимуть статистики з цими даними, що, на мою думку, було ядром питання ОП.
Кліф АВ

3

Будучи (аналітичним) хіміком , я стикаюся з обома підходами: аналітичним розрахунком показників заслуг [переважно для однофакторної регресії], а також прямим вимірюванням прогнозних показників заслуг.
Розділення поїздів / тестів для мене - це "маленький брат" експерименту валідації для вимірювання якості передбачення.


Довга відповідь:

Типові експерименти, які ми робимо, наприклад, у бакалаврській фізичній хімії використовують одноманітну регресію. Властивістю, що цікавить, часто є параметри моделі, наприклад, константа часу при вимірюванні кінетики реакцій, але іноді і прогнози (наприклад, одновимірне лінійне калібрування для прогнозування / вимірювання деякого значення інтересу).
Ці ситуації є дуже доброякісними з точки зору непридатності: зазвичай залишається зручна кількість ступенів свободи після того, як всі параметри будуть оцінені, і вони використовуються для навчання (як у навчанні) студентів з класичним розрахунком довіри або інтервалу прогнозування та класичною помилкою розповсюдження - вони були розроблені для цих ситуацій. І навіть якщо ситуація не зовсім схожа на підручник (наприклад, у мене є структура в моїх даних, наприклад, в кінетиці я б очікував, що дані краще описуються різницею між прогонами реакції + дисперсією між вимірюваннями в пробігу, ніж через простий підхід, що стосується лише однієї дисперсії), як правило, я можу мати достатньо циклів експерименту, щоб все-таки отримати корисні результати.

pнн<pнннгf, класичні підходи не працюють. Але, оскільки я здебільшого роблю прогнози, у мене завжди є дуже пряма можливість вимірювання прогнозної здатності моєї моделі: я роблю прогнози та порівнюю їх із еталонними значеннями.

Цей підхід насправді є дуже потужним (хоча і дорогим через збільшення експериментальних зусиль), оскільки дозволяє мені перевірити якість прогнозування також для умов, які не були охоплені даними тренувань / калібрування. Наприклад, я можу оцінити, як якість прогнозування погіршується при екстраполяції (екстраполяція включає також, наприклад, вимірювання, проведені, скажімо, через місяць після придбання даних тренувань), я можу перевірити стійкість до заплутаних факторів, які, на мою думку, важливі тощо. Іншими словами , ми можемо вивчити поведінку нашої моделі так само, як ми вивчаємо поведінку будь-якої іншої системи: ми досліджуємо певні моменти, або порушуємо її і дивимось на зміну відповіді системи тощо.

Я б сказав, що чим важливіша якість прогнозування (і чим вищий ризик перевитрати), тим більше ми прагнемо віддавати перевагу прямим вимірюванням прогнозної якості, а не аналітично виведеним числам. (Звичайно, ми могли б включити всіх цих плутанини також у розробку навчального експерименту). Деякі сфери, такі як медична діагностика, вимагають проведення належних валідаційних досліджень, перш ніж модель буде "відпущена" на реальних пацієнтах.

Розщеплення поїзда / тесту (будь то протримане * або перехресне підтвердження, або поза завантаженням чи ...) полегшує цей крок легше. Ми зберігаємо додатковий експеримент і не екстраполюємо (ми лише узагальнюємо передбачення невідомих незалежних випадків того самого розподілу навчальних даних). Я б описав це як перевірку, а не перевірку (хоча тут валідація глибоко в термінології). Це часто прагматичний шлях, якщо немає занадто високих вимог до точності показників заслуг (можливо, їх не потрібно буде знати дуже точно в сценарії доведення концепції).

* не плутати жодного випадкового розбиття на поїзд і тест з правильно розробленим дослідженням для вимірювання якості прогнозування.


2
+1 для вказівки на різницю в верифікації та валідації.
синоптик
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.