Виявлені високомірні, співвідносні дані та основні характеристики / коваріати; тестування множинних гіпотез?

У мене є набір даних з близько 5000 часто співвідносних функцій / коваріатів та двійкової відповіді. Дані мені дали, я не збирав їх. Я використовую Lasso і градієнтний прискорення для створення моделей. Я використовую ітераційну, вкладену перехресну перевірку. Я повідомляю про найбільші (абсолютні) коефіцієнти 40 Лассо та 40 найважливіших особливостей дерев, що підсилюють градієнт (40 не було нічого особливого; це, здавалося, було достатньою кількістю інформації). Я також повідомляю про відхилення цих кількостей у складках та ітераціях CV.

Я своєрідно роздумую над "важливими" ознаками, не висловлюючи жодних тверджень про p-значеннях чи причинності чи що-небудь, але натомість вважаю цей процес своєрідним --- хоч і недосконалим і свого роду випадковим розумінням якогось явища.

Якщо припустити, що я все це зробив правильно (наприклад, виконано перехресну перевірку правильно, масштабується для ласо), чи розумний такий підхід? Чи є проблеми, наприклад, з тестуванням численних гіпотез, пост-спеціальним аналізом, помилковим виявленням? Або інші проблеми?

Об'єктивна

Прогнозуйте ймовірність несприятливої події

Найперше, точно оцініть ймовірність
Більш незначні - як перевірка добросовісності, але також, можливо, щоб виявити деякі нові прогнози, які можна було б дослідити далі, перевірити коефіцієнти та значення, як було зазначено вище.

Споживач

Дослідники, зацікавлені передбачити цю подію, і люди, які в кінцевому підсумку повинні виправити подію, якщо вона відбудеться

Що я хочу, щоб вони з цього вийшли

Дайте їм можливість передбачити подію, якщо вони хочуть повторити процес моделювання, як описано, із власними даними.
Пролийте трохи світла на несподіваних прогнозів. Наприклад, може виявитися, що щось абсолютно несподіване - найкращий прогноз. Тому модельєри в інших місцях можуть серйозніше розглянути зазначеного прогноктора.

— user0
джерело

Було б корисно знати, у чому тут наміри. Ти робив це, чому? Хто споживач, і що ви хочете, щоб вони вийшли з аналізу?

— Метью Друрі

Немає проблем з точністю прогнозів. Невизначеність ваших прогнозів оцінюється добре шляхом перехресної перевірки. Можливо, є одне застереження, що якщо ви перевіряєте велику кількість параметрів, то ви переоцінюєте точність, тому для оцінки точності остаточної моделі слід використовувати набір перевірки. Крім того, ваші дані повинні бути репрезентативними для даних, щодо яких ви збираєтесь робити прогнози.

Вам зрозуміло, і читачеві має бути зрозуміло, що ваші прогнози не є наслідками ефекту, вони просто прогнози, які роблять хороший прогноз, і працюють добре емпірично. Хоча я повністю погоджуюся з вашою обережністю, зробити висновок про будь-яку причину з даних спостережень у будь-якому випадку проблематично. Такі речі, як значущість і такі, є "діючими" поняттями в добре розроблених, контрольованих дослідженнях, і поза цим вони є лише інструментами, які ви та інші повинні тлумачити розумно та обережно. Можуть бути загальні причини, хибні ефекти, маскування та інші речі, що відбуваються у звичайній лінійній регресії з повідомленнями про довірчі інтервали, а також у моделі ласо, а також у моделі з підсиленням градієнта.

— Гійс
джерело