Це моє перше повідомлення в StackExchange, але я використовую його як ресурс досить довгий час, я зроблю все можливе, щоб використовувати відповідний формат і внести відповідні зміни. Також це багатозначне питання. Я не був впевнений, чи варто розділити це питання на кілька різних постів або лише на одну. Оскільки всі питання є з одного розділу в одному тексті, я вважав, що більш доречним буде повідомлення як одне питання.
Я досліджую використання середовищ існування великих видів ссавців для магістерської роботи. Мета цього проекту - надати керівникам лісів (які, швидше за все, не є статистиками), практичну базу для оцінки якості середовища проживання на землях, якими вони керують, щодо цього виду. Ця тварина є відносно невловимим, спеціалістом з проживання, і зазвичай знаходиться у віддалених районах. Проведено порівняно мало досліджень щодо поширення виду, особливо сезонно. Кілька тварин були обладнані нашийниками GPS терміном на один рік. Сто локацій (50 літніх та 50 зимових) були вибрані випадковим чином із даних GPS-коміра кожної тварини. Крім того, 50 балів були випадковим чином згенеровані в домашньому діапазоні кожної тварини, щоб вони послужили місцями "доступні" або "псевдовідсутності".
Для кожного місця розташування було відібрано кілька змінних місць існування в полі (діаметри дерев, горизонтальне покриття, грубі деревні уламки тощо), а декілька були відібрані віддалено через ГІС (висота, відстань до дороги, нерівномірність тощо). Змінні в основному є безперервними, за винятком 1 категоріальної змінної, яка має 7 рівнів.
Моя мета - використовувати регресійне моделювання для побудови функцій вибору ресурсів (RSF) для моделювання відносної ймовірності використання ресурсних одиниць. Я хотів би створити сезонний (зимовий та літній) РРС для популяції тварин (тип проекту I), а також кожної окремої тварини (тип конструкції III).
Я використовую R для статистичного аналізу.
Первинний текст Я використовую це ...
- "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Прикладна логістична регресія. Wiley, Chicester".
Більшість прикладів у Hosmer et al. використання STATA, я також використовував наступні 2 тексти для довідки з R .
- "Crawley, MJ 2005. Статистика: вступ із використанням RJ Wiley, Chichester, West Sussex, England".
- "Завод, RE 2012. Аналіз просторових даних в екології та сільському господарстві з використанням R. CRC Press, Лондон, GBR."
В даний час я виконую кроки в главі 4 Хосмера та ін. для "Цілеспрямованого відбору коваріатів" та мати кілька запитань щодо процесу. Я описав перші кілька кроків у тексті нижче, щоб допомогти у вирішенні питань.
- Крок 1: Невідмінний аналіз кожної незалежної змінної (я використав неперемінну логістичну регресію). Будь-яка змінна, у якої неперемінний тест має р-значення менше 0,25, повинна бути включена до першої багатовимірної моделі.
- Крок 2: Підготуйте багатоваріантну модель, що містить усі коваріати, визначені для включення на етапі 1, та оцініть важливість кожного коваріату, використовуючи p-значення його статистики Wald. Змінні, які не сприяють традиційному рівню значущості, повинні бути ліквідовані та встановити нову модель. Нову, меншу модель слід порівнювати зі старою, більшою моделлю, використовуючи тест на часткову ймовірність.
- Крок 3: Порівняйте значення розрахункових коефіцієнтів у меншій моделі з їх відповідними значеннями з великої моделі. Будь-яка змінна, коефіцієнт якої помітно змінився за величиною, повинна бути додана до моделі, оскільки це важливо в сенсі забезпечення необхідного коригування ефекту змінних, що залишаються в моделі. Проходьте кроки 2 та 3, поки не з’ясується, що всі важливі змінні включені в модель, а ті, що виключені, не є клінічно та / або статистично неважливими. Hosmer та ін. використовувати " дельта-бета-капелюх-відсотки " як міру зміни величини коефіцієнтів. Вони пропонують значну зміну як дельта-бета-шапка у відсотках > 20%. Hosmer та ін. визначити відсоток дельта-бета-шапки як . Тамдеθ1є коефіцієнтом від меншої моделі іβ1є коефіцієнтом від більшої моделі.
- Крок 4: Додайте кожну змінну, не вибрану на етапі 1, до моделі, отриманої наприкінці кроку 3, по одній, і перевірте її значення або статистичним р-значенням Wald, або тестом часткового вірогідності, якщо він є категоричним змінна з більш ніж 2 рівнями. Цей крок життєво важливий для виявлення змінних, які самі по собі суттєво не пов'язані з результатом, але роблять важливий внесок у присутності інших змінних. Ми називаємо модель наприкінці кроку 4 як попередню модель основних ефектів .
- Кроки 5-7: Я до цього моменту не просунувся, тому поки що покину ці кроки або збережу їх для іншого питання.
Мої запитання:
- На кроці 2, що було б доречним як традиційний рівень значущості, p-значення <0,05 щось більше, як <.25?
- На кроці 2 ще раз я хочу переконатися, що код R, який я використовував для часткової перевірки ймовірності, є правильним, і я хочу переконатися, що я правильно інтерпретую результати. Ось що я робив…
anova(smallmodel,largemodel,test='Chisq')
Якщо значення р є значущим (<0,05), я додаю змінну назад до моделі, якщо вона незначна, я продовжую видалення? - На кроці 3 у мене виникає запитання щодо відсотків дельта-бета-шапки, і коли доцільно додати до моделі виключену змінну. Наприклад, виключити одну змінну з моделі і вона змінює Д для іншої змінної від> 20%. Однак, змінна зі зміною> 20% в А р % здається незначним і виглядає такяк ніби він буде виключений з моделі в найближчі кілька циклів кроків 2 і 3. Як я можу зробити визначенняякщо обидві змінні повинні бути включені або виключені з моделі? Оскільки я дію, виключаючи одночасно одну змінну, видаляючи спочатку найменш значущі змінні, я не вагаюся, щоб виключити змінну не в порядку.
Нарешті, я хочу , щоб переконатися , що код я використовую , щоб обчислити правильно. Я використовую наступний код. Якщо є пакет, який зробить це для мене, або більш простий спосіб зробити це, я відкритий для пропозицій.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])