У мене є набір даних з близько 5000 часто співвідносних функцій / коваріатів та двійкової відповіді. Дані мені дали, я не збирав їх. Я використовую Lasso і градієнтний прискорення для створення моделей. Я використовую ітераційну, вкладену перехресну перевірку. Я повідомляю про найбільші (абсолютні) коефіцієнти 40 Лассо та 40 найважливіших особливостей дерев, що підсилюють градієнт (40 не було нічого особливого; це, здавалося, було достатньою кількістю інформації). Я також повідомляю про відхилення цих кількостей у складках та ітераціях CV.
Я своєрідно роздумую над "важливими" ознаками, не висловлюючи жодних тверджень про p-значеннях чи причинності чи що-небудь, але натомість вважаю цей процес своєрідним --- хоч і недосконалим і свого роду випадковим розумінням якогось явища.
Якщо припустити, що я все це зробив правильно (наприклад, виконано перехресну перевірку правильно, масштабується для ласо), чи розумний такий підхід? Чи є проблеми, наприклад, з тестуванням численних гіпотез, пост-спеціальним аналізом, помилковим виявленням? Або інші проблеми?
Об'єктивна
Прогнозуйте ймовірність несприятливої події
- Найперше, точно оцініть ймовірність
- Більш незначні - як перевірка добросовісності, але також, можливо, щоб виявити деякі нові прогнози, які можна було б дослідити далі, перевірити коефіцієнти та значення, як було зазначено вище.
Споживач
- Дослідники, зацікавлені передбачити цю подію, і люди, які в кінцевому підсумку повинні виправити подію, якщо вона відбудеться
Що я хочу, щоб вони з цього вийшли
Дайте їм можливість передбачити подію, якщо вони хочуть повторити процес моделювання, як описано, із власними даними.
Пролийте трохи світла на несподіваних прогнозів. Наприклад, може виявитися, що щось абсолютно несподіване - найкращий прогноз. Тому модельєри в інших місцях можуть серйозніше розглянути зазначеного прогноктора.