Для прогнозного моделювання нам потрібно ставитись до таких статистичних понять, як випадкові ефекти та незалежність спостережень (повторні заходи)? Наприклад....
У мене є дані з 5 кампаній прямої пошти (які відбувалися протягом року) з різними атрибутами та прапором для покупки. В ідеалі я використовував би всі ці дані в поєднанні для створення моделі для придбання даних клієнтських атрибутів під час кампанії. Причина в тому, що подія покупки зустрічається рідко, і я хотів би використовувати якомога більше інформації. Є ймовірність, що даний клієнт може бути в будь-якому місці від 1 до 5 кампаній - тобто немає незалежності між записами.
Чи має це значення при використанні:
1) Машинний підхід до навчання (наприклад, дерево, MLP, SVM)
2) Статистичний підхід (логістична регресія)?
**ADD:**
Моя думка щодо прогнозного моделювання полягає в тому, якщо модель працює, використовуйте її. Так що я ніколи насправді не враховував важливості припущень. Думаючи про описаний вище випадок, мені стало цікаво.
Візьміть алгоритми машинного навчання, такі як MLP and SVM
. Вони успішно використовуються для моделювання бінарних подій, таких як мій приклад вище, але також даних часових рядів, які чітко співвідносяться. Однак багато хто використовує функції втрат, які є ймовірними та отриманими з припущення про помилки. Наприклад, дерева, що підсилюють градієнт, в R gbm
використовують функції втрат відхилення, які походять від двочлена ( Стор. 10 ).