Передбачувальне моделювання - чи варто дбати про змішане моделювання?


19

Для прогнозного моделювання нам потрібно ставитись до таких статистичних понять, як випадкові ефекти та незалежність спостережень (повторні заходи)? Наприклад....

У мене є дані з 5 кампаній прямої пошти (які відбувалися протягом року) з різними атрибутами та прапором для покупки. В ідеалі я використовував би всі ці дані в поєднанні для створення моделі для придбання даних клієнтських атрибутів під час кампанії. Причина в тому, що подія покупки зустрічається рідко, і я хотів би використовувати якомога більше інформації. Є ймовірність, що даний клієнт може бути в будь-якому місці від 1 до 5 кампаній - тобто немає незалежності між записами.

Чи має це значення при використанні:

1) Машинний підхід до навчання (наприклад, дерево, MLP, SVM)

2) Статистичний підхід (логістична регресія)?

**ADD:**

Моя думка щодо прогнозного моделювання полягає в тому, якщо модель працює, використовуйте її. Так що я ніколи насправді не враховував важливості припущень. Думаючи про описаний вище випадок, мені стало цікаво.

Візьміть алгоритми машинного навчання, такі як MLP and SVM. Вони успішно використовуються для моделювання бінарних подій, таких як мій приклад вище, але також даних часових рядів, які чітко співвідносяться. Однак багато хто використовує функції втрат, які є ймовірними та отриманими з припущення про помилки. Наприклад, дерева, що підсилюють градієнт, в R gbmвикористовують функції втрат відхилення, які походять від двочлена ( Стор. 10 ).


1
Це буде мати значення для статистичних підходів, які передбачають незалежність між записами, тому що ви потім маєте справу з повторними заходами.
Мішель

4
Мені здається, одна з головних відмінностей між машинним навчанням, орієнтованим на прогнозування, і статистикою, орієнтованою на висновок, саме те, що ви говорите, B_Miner. Машинне навчання більше стосується того, що працює, тоді як традиційна статистика приділяє особливу увагу припущенням. В обох випадках вам потрібно знати про припущення / властивості підходів, а потім приймати обгрунтоване рішення, важливі вони чи ні. Ви можете обдурити себе при прогнозуванні моделювання того, чи працює ваша модель, якщо ви не розумієте припущень / властивостей підходу.
Енн З.

2
@ AnneZ. Якщо ви дотримуєтесь рекомендованого підходу до перевірки набору тренувань, випробувань та валідації (всі зразки достатньо великі) при прогнозуванні моделювання, і ви знайдете щось, що працює, чи все-таки варто турбуватися, якщо відповідні основні припущення виконуються? Я, звичайно, не рекомендую безглузде застосування ML, мені було просто цікаво ...
steffen

2
У цьому контексті може бути цікавим стаття "Статистичне моделювання: дві культури" , обговорювана в третьому клубі журналів, що
перекреслює,

Відповіді:


14

Мені це було цікаво , і ось мої попередні висновки. Буду радий, якщо хтось міг би доповнити / виправити це своїми знаннями та будь-якими посиланнями на цю тему.

Якщо ви хочете перевірити гіпотези щодо коефіцієнтів логістичної регресії, перевіривши статистичну значущість, вам потрібно моделювати співвідношення між спостереженнями (або іншим чином правильним для незалежності), оскільки в іншому випадку ваші стандартні помилки будуть занадто малі, принаймні, якщо ви розглядаєте питання про те, кластерні ефекти. Але коефіцієнти регресії непідвладні навіть кореляційним спостереженням, тому слід добре використовувати таку модель для прогнозування.

Під час прогнозування моделювання вам не потрібно чітко враховувати кореляцію при навчанні вашої моделі, чи використовуєте ви логістичну регресію чи інший підхід. Однак, якщо ви хочете використовувати набір утримування для перевірки або обчислення помилки, що не є вибіркою, ви хочете переконатися, що спостереження за кожною особою відображалися лише в одному наборі - або тренінг, або перевірка, але не обидва. Інакше ваша модель буде передбачати для людей, вона вже має деяку інформацію, і ви не отримаєте правдивого прочитання щодо можливості вибіркової класифікації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.