Побудова та вибір моделей за допомогою Hosmer et al. 2013. Прикладна логістична регресія в R


17

Це моє перше повідомлення в StackExchange, але я використовую його як ресурс досить довгий час, я зроблю все можливе, щоб використовувати відповідний формат і внести відповідні зміни. Також це багатозначне питання. Я не був впевнений, чи варто розділити це питання на кілька різних постів або лише на одну. Оскільки всі питання є з одного розділу в одному тексті, я вважав, що більш доречним буде повідомлення як одне питання.

Я досліджую використання середовищ існування великих видів ссавців для магістерської роботи. Мета цього проекту - надати керівникам лісів (які, швидше за все, не є статистиками), практичну базу для оцінки якості середовища проживання на землях, якими вони керують, щодо цього виду. Ця тварина є відносно невловимим, спеціалістом з проживання, і зазвичай знаходиться у віддалених районах. Проведено порівняно мало досліджень щодо поширення виду, особливо сезонно. Кілька тварин були обладнані нашийниками GPS терміном на один рік. Сто локацій (50 літніх та 50 зимових) були вибрані випадковим чином із даних GPS-коміра кожної тварини. Крім того, 50 балів були випадковим чином згенеровані в домашньому діапазоні кожної тварини, щоб вони послужили місцями "доступні" або "псевдовідсутності".

Для кожного місця розташування було відібрано кілька змінних місць існування в полі (діаметри дерев, горизонтальне покриття, грубі деревні уламки тощо), а декілька були відібрані віддалено через ГІС (висота, відстань до дороги, нерівномірність тощо). Змінні в основному є безперервними, за винятком 1 категоріальної змінної, яка має 7 рівнів.

Моя мета - використовувати регресійне моделювання для побудови функцій вибору ресурсів (RSF) для моделювання відносної ймовірності використання ресурсних одиниць. Я хотів би створити сезонний (зимовий та літній) РРС для популяції тварин (тип проекту I), а також кожної окремої тварини (тип конструкції III).

Я використовую R для статистичного аналізу.

Первинний текст Я використовую це ...

  • "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Прикладна логістична регресія. Wiley, Chicester".

Більшість прикладів у Hosmer et al. використання STATA, я також використовував наступні 2 тексти для довідки з R .

  • "Crawley, MJ 2005. Статистика: вступ із використанням RJ Wiley, Chichester, West Sussex, England".
  • "Завод, RE 2012. Аналіз просторових даних в екології та сільському господарстві з використанням R. CRC Press, Лондон, GBR."

В даний час я виконую кроки в главі 4 Хосмера та ін. для "Цілеспрямованого відбору коваріатів" та мати кілька запитань щодо процесу. Я описав перші кілька кроків у тексті нижче, щоб допомогти у вирішенні питань.

  1. Крок 1: Невідмінний аналіз кожної незалежної змінної (я використав неперемінну логістичну регресію). Будь-яка змінна, у якої неперемінний тест має р-значення менше 0,25, повинна бути включена до першої багатовимірної моделі.
  2. Крок 2: Підготуйте багатоваріантну модель, що містить усі коваріати, визначені для включення на етапі 1, та оцініть важливість кожного коваріату, використовуючи p-значення його статистики Wald. Змінні, які не сприяють традиційному рівню значущості, повинні бути ліквідовані та встановити нову модель. Нову, меншу модель слід порівнювати зі старою, більшою моделлю, використовуючи тест на часткову ймовірність.
  3. Крок 3: Порівняйте значення розрахункових коефіцієнтів у меншій моделі з їх відповідними значеннями з великої моделі. Будь-яка змінна, коефіцієнт якої помітно змінився за величиною, повинна бути додана до моделі, оскільки це важливо в сенсі забезпечення необхідного коригування ефекту змінних, що залишаються в моделі. Проходьте кроки 2 та 3, поки не з’ясується, що всі важливі змінні включені в модель, а ті, що виключені, не є клінічно та / або статистично неважливими. Hosmer та ін. використовувати " дельта-бета-капелюх-відсотки " як міру зміни величини коефіцієнтів. Вони пропонують значну зміну як дельта-бета-шапка у відсотках > 20%. Hosmer та ін. визначити відсоток дельта-бета-шапки як . Тамдеθ1є коефіцієнтом від меншої моделі іβ1є коефіцієнтом від більшої моделі.Δβ^%=100θ^1β^1β^1θ^1β^1
  4. Крок 4: Додайте кожну змінну, не вибрану на етапі 1, до моделі, отриманої наприкінці кроку 3, по одній, і перевірте її значення або статистичним р-значенням Wald, або тестом часткового вірогідності, якщо він є категоричним змінна з більш ніж 2 рівнями. Цей крок життєво важливий для виявлення змінних, які самі по собі суттєво не пов'язані з результатом, але роблять важливий внесок у присутності інших змінних. Ми називаємо модель наприкінці кроку 4 як попередню модель основних ефектів .
  5. Кроки 5-7: Я до цього моменту не просунувся, тому поки що покину ці кроки або збережу їх для іншого питання.

Мої запитання:

  1. На кроці 2, що було б доречним як традиційний рівень значущості, p-значення <0,05 щось більше, як <.25?
  2. На кроці 2 ще раз я хочу переконатися, що код R, який я використовував для часткової перевірки ймовірності, є правильним, і я хочу переконатися, що я правильно інтерпретую результати. Ось що я робив… anova(smallmodel,largemodel,test='Chisq')Якщо значення р є значущим (<0,05), я додаю змінну назад до моделі, якщо вона незначна, я продовжую видалення?
  3. На кроці 3 у мене виникає запитання щодо відсотків дельта-бета-шапки, і коли доцільно додати до моделі виключену змінну. Наприклад, виключити одну змінну з моделі і вона змінює Д для іншої змінної від> 20%. Однак, змінна зі зміною> 20% в А р % здається незначним і виглядає такяк ніби він буде виключений з моделі в найближчі кілька циклів кроків 2 і 3. Як я можу зробити визначенняякщо обидві змінні повинні бути включені або виключені з моделі? Оскільки я дію, виключаючи одночасно одну змінну, видаляючи спочатку найменш значущі змінні, я не вагаюся, щоб виключити змінну не в порядку.Δβ^%Δβ^%
  4. Нарешті, я хочу , щоб переконатися , що код я використовую , щоб обчислити правильно. Я використовую наступний код. Якщо є пакет, який зробить це для мене, або більш простий спосіб зробити це, я відкритий для пропозицій. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


з цікавості який вид ви вивчаєте?
синоптик

Відповіді:


23

Pβ


3
Так, знання домену + здорова доза невіри у простоту, наприклад, не припускайте, що безперервні змінні діють лінійно, якщо у вас немає попередніх даних, що демонструють лінійність.
Френк Харрелл

6
ОП цитує основний текст у своєму третьому виданні з авторами, які зробили великий внесок у цю сферу. Інші моменти, викладені у питанні, обговорюються в інших впливових текстах (Agresti, Gelman). Я підводжу це не тому, що я згоден з цією стратегією, а радше зазначити, що ці стратегії радяться в останніх, основних текстах шанованих статистиків. Підсумовуючи: хоча існує достатня кількість літератури, яка радить проти цього, статистичне співтовариство, схоже, не відкидається.
липень

2
Це досить помилково на мою скромну думку. Стратегії, настільки сильно висунуті в деяких текстах, ніколи не були затверджені. Автори, які не вірять у симуляцію, наражаються на небезпеку, що виступають за використання методів, які не працюють як рекламуються.
Френк Харрелл

2
Так, я знаю. Я часто посилаюся на ваш текст і документи, і це одне з джерел, якими я користувався, щоб дійти висновку, не погоджуючись з вищевказаною стратегією. Я просто передаю дилему застосованого користувача. Ми не можемо все перевірити. Ми покладаємось на експертів, таких як ви.
липень

3
@GNG: FH має на увазі моделювання як спосіб показати, що такий підхід до вибору моделі насправді робить те, що належить зробити (імовірно, для підвищення точності прогнозів вашої моделі) у типових програмах. Ваші (проникливі) питання підкреслюють його досить довільне, спеціальне, природоохоронне включення змінної на невизначене число тестів на значимість на "традиційних" рівнях теорією не може бути показано, щоб гарантувати оптимізацію будь-чого.
Scortchi

5

Методи, визначені для вибору змінних, використовуючи статистику, таку як P, ступінчату регресію в класичному тексті Хосмера та ін., Слід у будь-яку ціну уникати.

Нещодавно я натрапив на статтю, опубліковану в міжнародному журналі прогнозування права " Ілюзії передбачуваності " та коментар до цієї статті Кіта Орд . Я настійно рекомендую обидві ці статті, оскільки вони чітко показують, що використання статистики регресії часто вводить в оману. Follwoing - це скріншот статті Кіта Орда, який за допомогою симуляції показує, чому покрокова регресія (використовує p статистику) для вибору змінних є поганою.

введіть тут опис зображення

Ще одна чудова стаття Скотта Армстронга що з’явилася в тому ж випуску журналу, показує, чому слід бути дуже обережними при використанні регресійного аналізу на неекспериментальних даних з прикладними дослідженнями. З тих пір, як я читаю ці статті, я уникаю використання регресійного аналізу, щоб зробити причинно-наслідкові умовиводи щодо неекспериментальних даних. Як практикуючий, я хотів би, щоб я читав такі статті, які врятували мене від прийняття поганих рішень та уникнення дорогих помилок.

Що стосується вашої конкретної проблеми, я не думаю, що у вашому випадку можливі рандомізовані експерименти, тому я б рекомендував використовувати перехресну перевірку для вибору змінних. Приємний опрацьований приклад доступний у цьому безкоштовній онлайн-книзі про те, як ви використовували б точність прогнозування для вибору змінних. Це також багато інших варіабельних методів поділу, але я б обмежувався перехресною валідацією.

Мені особисто подобається цитата з Армстронга "Десь я стикався з думкою, що статистика повинна сприяти комунікації. Складні методи регресії та зграя діагностичної статистики перевели нас в інший бік".

Нижче - моя власна думка. Я не статистик.

  • Як біолог, я думаю, ви оціните цей пункт. Природа дуже складна, передбачає логістичну функцію і ніякої взаємодії між змінними в природі не відбувається. Крім того, логістична регресія має такі припущення :

  • Справжні умовні ймовірності - це логістична функція незалежних змінних.

  • Немає важливих змінних. Сторонні змінні не включаються.

  • Незалежні змінні вимірюються без помилок.
  • Спостереження незалежні.
  • Незалежні змінні не є лінійними комбінаціями один одного.

Я рекомендую дерево класифікації та регресії (CART (r)) як альтернативу для логістичної регресії для цього типу аналізу, оскільки це припущення вільні:

  1. Непараметричні / керовані даними / відсутні припущення, що ваші ймовірності виходу відповідають логістичній функції.
  2. Нелінійний
  3. дозволяє складна взаємодія змінної.
  4. Забезпечує чітко інтерпретовані візуальні дерева, які оцінюють нестатистичні лікарі, як лісові менеджери.
  5. Легко обробляє пропущені значення.
  6. Не потрібно бути статистиком, щоб використовувати CART !!
  7. автоматично вибирає змінні за допомогою перехресної перевірки.

CART - торгова марка Salford Systems. Дивіться це відео для ознайомлення та історії CART. На цьому ж веб-сайті є й інші відео, такі як гібриди - логістичні регресії. Я би це перевірив. імпретація з відкритим кодом у R називається Деревом , і є багато інших пакетів, таких як брязкальце, наявних у Р. Якщо я знайду час, я розміщу перший приклад у тексті Хомсера за допомогою CART. Якщо ви наполягаєте на використанні логістичної регресії, я б принаймні використовував такі методи, як CART, щоб вибрати змінні, а потім застосувати логістичну регресію.

Я особисто віддаю перевагу CART над логістичною регресією через вищезазначені переваги. Але все-таки я б спробував як логістичну регресію, так і CART або CART-Logistc Regression Hybrid, і побачити, що дає кращу точність прогнозування, а також важливіше кращу інтерпретаційність і вибрати той, який, на вашу думку, «передати» дані чіткіше.

Крім того, FYI CART було відхилено великими статистичними журналами, і нарешті винахідники CART вийшли з монографією. CART проклав шлях до сучасних і дуже успішних алгоритмів машинного навчання, таких як Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines. Випадковий ліс та ГБМ більш точні, ніж CART, але менш інтерпретовані (як чорний ящик), ніж CART.

Сподіваємось, це корисно. Повідомте мене, чи вважаєте ви цю публікацію корисною?


8
Ні. Логістична модель не дає більше припущень, ніж інші моделі. Головне унікальне припущення, що цеYсправді все-чи нічого. CART значно перевершує логістичну регресію. CART ефективно підходить набагато більше параметрів, ніж логістична регресія, оскільки дозволяє здійснювати всі можливі взаємодії. Іронія полягає в тому, що метод, що дозволяє досягти максимальної гнучкості, більш консервативний, ніж більш структурований метод. Ви побачите, що для того, щоб моделі CART були добре відкалібровані, вам доведеться обрізати модель, щоб мати невелику прогностичну дискримінацію.
Френк Харрелл

3
Ця відповідь переходить із загальних коментарів, багато з яких видаються мені суперечливими, принаймні, для мене, до особливо специфічної та досить особистої схвалення CART як методу вибору. Ви маєте право на свої погляди, оскільки інші матимуть право на свої заперечення. Моя пропозиція полягає в тому, щоб ви позначили подвійний смак своєї відповіді більш чітко.
Нік Кокс

2
Логістична регресія - це узагальнена лінійна модель, але в іншому випадку вона може бути захищеною як справді добре мотивована, як природно нелінійна модель (в тому сенсі, що вона відповідає кривим або еквівалентним, а не лініям чи еквівалентом у звичайному просторі), що добре підходить для двійкові відповіді. Звернення до біології тут двояке; історично логістичні моделі для бінарних відповідей були натхнені моделями для логістичного зростання (наприклад, населення) в біології!
Нік Кокс

Соєр та ін. папір, армстронгський папір та коментарі - це дуже добре. Я читав їх ці вихідні. Дякую за пропозицію. Не будучи статистиком, я не можу коментувати використання CART за допомогою логістичної регресії. Однак ваша відповідь дуже добре написана, корисна і отримала коментарі, які проникливі. Я читав такі методи машинного навчання, як CART, MaxEnt, і посилив регресійні дерева, і планую обговорити їх зі своїм комітетом, щоб отримати їх розуміння. Коли я отримую трохи вільного часу, відео CART також має бути цікавим.
GNG

3
Із посмішкою я думаю, що ми можемо змінити ваші коментарі щодо лінійних моделей і наполягаємо на тому, що CART далеко не є припущенням або навіть світлом припущення, що CART припускає, що реальність схожа на дерево (що ще?). Якщо ви вважаєте, що природа - це постійно змінюється континуум, вам слід бігти в зворотному напрямку.
Нік Кокс

3

Я думаю, ти намагаєшся передбачити присутність виду за допомогою підходу, який добре зафіксований у таких журналах, як «Методи в екології та еволюції», «Екографія» тощо. Можливо, пакет пакунків R може бути корисним для вашої проблеми. Він включає приємну віньєтку. Використання пакету dismo чи іншого подібного пакету означає змінити свій підхід до проблеми, але я вважаю, що варто переглянути.


2
Що вас заважає просто вказати модель? Чому велика невизначеність у тому, що має бути в моделі? Чому необхідність вибору моделі за допомогою GLM?
Френк Харрелл

1
Боюся, ви змішуєте деякі поняття. (1) фактично максимум - це дані про наявність / вихідні дані або дані про наявність / псевдовідсутність. Отже, maxent використовує дані лише для присутності та додає деякі точки з пейзажу, тобто фон / псевдовідсутність. Таким чином, він може бути використаний у вашому випадку. (2) GLM були розроблені для використання з "справжніми" відсутностями. Однак GLM був адаптований для даних про наявність / псевдовідсутність. (3) пакунок dismo пропонує посилені дерева регресії, але не тільки. Ви також можете підходити до GLM, просто дотримуйтесь однієї з віньєток пакету (їх є 2).
Гюго

1
Якщо у вас є питання про те, які змінні слід включити в якості прогнозів, подивіться на ці статті: Sheppard 2013. Як відбір кліматичних змінних впливає на прогнози поширення видів? Тематичне дослідження трьох нових бур’янів у Новій Зеландії. Дослідження бур’янів; Харріс та ін. 2013. Бути чи не бути? Змінна селекція може змінити прогнозовану долю загрозливого виду в майбутньому кліматі. Екол. Менеджер. Реставратор.
Гюго

2
Дивна думка, що змінні методи вибору якимось чином зменшують перевитрату. Очевидна економія змінних від зменшення моделі є цілком ілюзією, коли скорочення відбувається від самих даних.
Френк Харрелл

1
@GNG: "Моя невизначеність щодо залишення всіх змінних у моделі випливає з усього, що мене вчили про колінеарність та надмірну відповідність". - Чи містить ваша модель високо колінеарні предиктори? Є чи ваша модель більш облягає?
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.