Для прогнозного моделювання нам потрібно ставитись до таких статистичних понять, як випадкові ефекти та незалежність спостережень (повторні заходи)? Наприклад....
У мене є дані з 5 кампаній прямої пошти (які відбувалися протягом року) з різними атрибутами та прапором для покупки. В ідеалі я використовував би всі ці дані в поєднанні для створення моделі для придбання даних клієнтських атрибутів під час кампанії. Причина в тому, що подія покупки зустрічається рідко, і я хотів би використовувати якомога більше інформації. Є ймовірність, що даний клієнт може бути в будь-якому місці від 1 до 5 кампаній - тобто немає незалежності між записами.
Чи має це значення при використанні:
1) Машинний підхід до навчання (наприклад, дерево, MLP, SVM)
2) Статистичний підхід (логістична регресія)?
**ADD:**
Моя думка щодо прогнозного моделювання полягає в тому, якщо модель працює, використовуйте її. Так що я ніколи насправді не враховував важливості припущень. Думаючи про описаний вище випадок, мені стало цікаво.
Візьміть алгоритми машинного навчання, такі як MLP and SVM. Вони успішно використовуються для моделювання бінарних подій, таких як мій приклад вище, але також даних часових рядів, які чітко співвідносяться. Однак багато хто використовує функції втрат, які є ймовірними та отриманими з припущення про помилки. Наприклад, дерева, що підсилюють градієнт, в R gbmвикористовують функції втрат відхилення, які походять від двочлена ( Стор. 10 ).