Зазвичай у біомедичних дослідженнях ми не використовуємо навчальний набір --- ми просто застосовуємо логістичну регресію до повного набору даних, щоб побачити, які прогнози є важливими факторами ризику для результату, який ми дивимося; або дивитись на одного прогнозованого інтересу, контролюючи вплив інших можливих прогнозів на результат.
Я не впевнений, що ви маєте на увазі під пороговими значеннями, але є різні параметри, які можна прагнути оптимізувати: AUC, значення обрізання для дихотомізації безперервної змінної предиктора, позитивні та негативні прогнозні значення, довірчі інтервали та p-значення, хибнопозитивні та помилкові негативні ставки. Логістична регресія розглядає сукупність суб'єктів і оцінює силу та причинний напрямок факторів ризику, що сприяють результатам інтересу до цієї групи. Можна також "запустити це в зворотному порядку", так би мовити, і визначити ризик індивіда щодо результату, враховуючи фактори ризику, які має індивід. Логістична регресія призначає кожному окремому ризику результат, виходячи з їхніх окремих факторів ризику, а за замовчуванням це 0,5. Якщо предмет " s ймовірність досягнення результату (виходячи з усіх даних і предметів у вашій моделі) становить 0,5 або вище, це передбачає, що він матиме результат; якщо нижче 0,5, то це передбачає, що він цього не зробить. Але ви можете відрегулювати цей рівень відсікання, наприклад, позначити більше людей, які можуть загрожувати результатом, хоча ціною, якщо передбачити більше помилкових позитивних результатів. Ви можете відрегулювати цей рівень відсікання, щоб оптимізувати рішення щодо скринінгу, щоб передбачити, яким особам рекомендується пройти подальше медичне спостереження; і побудувати ваше позитивне прогнозне значення, негативне прогнозне значення та помилково негативні та хибнопозитивні показники для скринінгового тесту на основі моделі логістичної регресії. Ви можете розробити модель на половині вашого набору даних і протестувати її на іншій половині, але ви не ' t дійсно потрібно (і це скоротить ваші дані про тренування навпіл і, таким чином, зменшить можливість знайти значущі прогнози в моделі). Так що так, ви можете «тренувати всю справу до кінця». Звичайно, в біомедичних дослідженнях ви хочете перевірити його на іншій сукупності, інший набір даних, перш ніж сказати, що ваші результати можуть бути узагальнені для широкої сукупності. Інший підхід полягає у використанні підходу типу завантажувального типу, коли ви запускаєте свою модель на підпроборі досліджуваної сукупності, а потім замінюєте ці предмети в пул і повторюйте з іншим зразком багато разів (як правило, 1000 разів). Якщо ви отримаєте значні результати у встановлену більшість часу (наприклад, 95% часу), то вашу модель можна вважати валідованою --- принаймні за власними даними. Але знову ж таки, чим менша кількість дослідницької групи, на якій ви запускаєте свою модель, тим менш ймовірним буде те, що деякі прогноктори стануть статистично значущими факторами ризику для результату. Особливо це стосується біомедичних досліджень з обмеженою кількістю учасників.
Використання половини ваших даних для "навчання" своєї моделі, а потім "перевірки" на іншій половині - зайвий тягар. Ви цього не робите для t-тестів або лінійної регресії, так навіщо це робити в логістичній регресії? Найбільше це зробить - ви скажете «так, це працює», але якщо ви використовуєте повний набір даних, то все одно це визначите. Розбиття ваших даних на менші набори даних ризикує не виявити значущих факторів ризику в досліджуваній сукупності (АБО валідаційну сукупність), коли вони є насправді, через малий розмір вибірки, що має занадто багато прогнозів для розміру дослідження та можливості що ваш 'зразок валідації' не виявить асоціацій лише випадково. Логіка, що стоїть на підході "поїзд, а потім перевірити", виглядає так: якщо фактори ризику, які ви визначите як значущі, недостатньо сильні, тоді вони не будуть статистично значущими при моделюванні на випадково вибраній половині ваших даних. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. не бути статистично значущим при моделюванні певної випадково вибраної половини даних. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. не бути статистично значущим при моделюванні певної випадково вибраної половини даних. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. Але цей випадково обраний зразок може не виявляти жодної асоціації випадково або тому, що він занадто малий, щоб фактор (и) ризику був статистично значущим. Але саме величина факторів ризику та їх статистична значущість визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. s величина факторів ризику та їх статистична значущість, які визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження. s величина факторів ризику та їх статистична значущість, які визначають їх важливість, і саме тому найкраще використовувати повний набір даних для створення вашої моделі. Статистична значимість стане менш значущою при менших розмірах вибірки, як це відбувається у більшості статистичних тестів. Логістична регресія - це мистецтво майже стільки, скільки статистична наука. Існують різні підходи до використання та різні параметри для оптимізації залежно від дизайну дослідження.