Чому метод класифікації (розбиття даних на навчання та тестування) не використовується в класичній статистиці?

12

У моїй аудиторії впливу даних обміну даними метод тримання був запроваджений як спосіб оцінки продуктивності моделі. Однак, коли я взяв свій перший клас на лінійних моделях, це не було запроваджено як засіб перевірки чи оцінки моделі. Моє онлайн-дослідження також не показує ніякого перехрестя. Чому метод класифікації не використовується в класичній статистиці?

— хитрість
джерело

22

Більш продуктивним може бути питання "чому він не був використаний у класичній статистиці, яку я дізнався?"

Залежно від рівня (рівнів), на якому він викладався, змісту курсу (та часу, доступного) цей вибір може бути обумовлений поєднанням різних факторів. Часто важливі теми залишаються осторонь, оскільки інші матеріали повинні викладатися з тих чи інших причин, сподіваючись, що вони можуть бути висвітлені в наступних темах.

Принаймні, в деяких сенсах, цим поняттям вже давно користуються різноманітні люди. Він був більш поширеним в деяких районах, ніж в інших. Багато статистичних даних не мають прогнозування чи вибору моделі в якості основного компонента (або в деяких випадках навіть взагалі), і в цьому випадку використання зразків тримання може бути менш критичним, ніж тоді, коли прогнозування є головним моментом. Можливо, воно повинно було отримати більш широке використання на більш ранній стадії в деяких відповідних додатках, ніж це було, але це не те саме, що невідомо.

Якщо ви подивитесь на сфери, орієнтовані на прогнозування, то поняття оцінки моделі шляхом прогнозування даних, які ви не використовували для оцінки вашої моделі, безумовно, було навколо (хоча і не універсальним). Я, безумовно, робив це за допомогою моделювання часових рядів, якими я займався у 1980-х, наприклад, де особливо важливе значення має вибірка прогнозування останніх даних.

Поняття про вибуття принаймні деяких даних використовувалося як в регресії (видалені залишки, PRESS, так і в тому подібному випадку), а також у зовнішньому аналізі, наприклад.

Деякі з цих ідей давно повертаються багато. Стоун (1974) [1] посилається на документи про перехресну перевірку (із словом у назві) з 1950-х та 60-х років. Можливо, ще ближче до вашого наміру, він згадує використання Саймоном (1971 р.) Термінів "будівельний зразок" та "зразок валідації" - але також вказує, що "Ларсон (1931 р.) Використовував випадковий поділ вибірки в навчальній множині" -регресійне дослідження ".

Такі теми, як перехресне підтвердження, та використання статистики, заснованої на прогнозуванні тощо, стали значно частішими, наприклад, у статистичній літературі у 70-х та 80-х роках, але багато основних ідей існували досить довго навіть потім.

[1]: Стоун, М., (1974)
"Перехресний вибір та оцінка статистичних прогнозів",
Журнал Королівського статистичного товариства. Серія B (Методологічні) , Вип. 36, № 2. С. 111-147

— Glen_b -Встановити Моніку
джерело

Тільки для запису, що М. Стоун - це не я, і він (і) він не пов'язаний зі мною, за винятком можливо, через Адама та Єву.

— Марк Л. Стоун

11

Щоб доповнити відповідь Glen_b, класична статистика часто робила / робила акцент на оптимальному використанні даних, оптимальних тестах, оптимальних оцінювачах, достатності тощо, і в цих теоретичних рамках важко обгрунтувати, що не використовується частина інформації ! Частиною цієї традиції є наголос на ситуаціях, що мають невеликі зразки, де витримати практично важко.

Наприклад, Фішер працював, головним чином, з генетикою та сільськогосподарськими експериментами, і в цих галузях було правилом невелика кількість спостережень. Тож він, в основному, стикався з такими проблемами з невеликими наборами даних.

— kjetil b halvorsen
джерело

6

Я відповім із прикладної галузі, яка, можливо, знаходиться між класичною статистикою та машинним навчанням: хіміометрією, тобто статистикою для хімічного аналізу. Я додам два різні сценарії, коли затримка не настільки важлива, як в типових класах машинного навчання.

Сценарій 1:

Я думаю, що тут важливим моментом є усвідомлення того, що є принципова різниця у тому, що є невеликий розмір вибірки для тренінгу та тестування:

Для навчання, як правило, співвідношення кількості випадків: складність моделі (кількість параметрів) має значення (ступінь свободи)
Для тестування має значення абсолютна кількість тестових випадків.
(Якість процедури тестування має бути незалежною від моделі: це трактується як чорний ящик шляхом перевірки незалежними тестовими кейсами)

$\gg$

Зараз, лекції зі статистики щодо "класичних" лінійних моделей часто дуже наголошують на універсальних моделях. Для уніваріантної лінійної моделі розмір навчальної вибірки, ймовірно, не малий: розміри вибіркового тренінгу зазвичай оцінюються порівняно зі складністю моделі, а лінійна модель має лише два параметри, зміщення та нахил. В аналітичній хімії ми фактично маємо норму, яка стверджує, що ви повинні мати принаймні 10 зразків калібрування для вашої одновимірної лінійної калібрування. Це забезпечує ситуацію, коли нестабільність моделі надійно не є проблемою, тому її затримка не потрібна.

Однак у машинному навчанні, а також із сучасними багатоканальними детекторами в хімічному аналізі (іноді 10⁴ «каналів», наприклад, у мас-спектрометрії), стабільність моделі (тобто дисперсія) є важливим питанням. Таким чином, потрібно затримка або краще перекомпонування.

Сценарій 2:

Зовсім інша ситуація полягає в тому, що затримка може бути пропущена на користь комбінації простішого (залишків) плюс більш складного вимірювання продуктивності. Зверніть увагу , що захоплення-аут в сенсі (випадково) Відкладаючи частину в наборі даних і за винятком цього від навчання НЕ відповідає тому , що незалежне тестування може досягти. В аналітичній хімії можуть проводитись спеціальні експерименти з валідацією, які включатимуть, наприклад, вимірювання деградації продуктивності за часом (дрейф приладу), який не можна виміряти затримкою та встановленням, наприклад, працездатності датчика в фактичних виробничих умовах (тоді як калібрування датчика було зроблено в лабораторії на зразках калібрування). Дивіться також /stats//a/104750/4598 для отримання більш докладної інформації про незалежне тестування проти трюму-ауту.

— cbeleites незадоволений SX
джерело

Вгорі, в сценарії 1, я думаю, ти мав на увазі сказати (зміщення << варіації)? Будь ласка, виправте!

— kjetil b halvorsen

1

@kjetilbhalvorsen ні, оскільки вона має на увазі недостатність у цьому пункті (модель, яка не є достатньо складною).

— Marc Claesen

@kjetilbhalvorsen; Марк Класен має рацію, я підкреслив, що це стосується ситуацій, коли ви можете бути впевнені, що проблема недостатня.

— cbeleites незадоволений SX

ГАРАЗД. кілька листів, щоб задовольнити req

— kjetil b halvorsen