Що ви зробили - це логістична регресія . Це можна зробити в основному в будь-якому статистичному програмному забезпеченні, і вихід буде подібним (принаймні, за змістом, хоча представлення може відрізнятися). На веб-сайті про відмінну статистику UCLA є посібник з логістичної регресії з R. Якщо ви не знайомі з цим, моя відповідь тут: різниця між моделями logit і probit , може допомогти вам зрозуміти, про що йдеться у LR (хоча це написано в іншому контексті).
У вас, здається, представлені дві моделі, я в першу чергу зупинюсь на верхній. Крім того, по- видимому, була допущена помилка при копіюванні і вставці моделі або вихід, так що я поміняються leaves.presence
з Area
на виході , щоб привести його в відповідність з моделлю. Ось модель, на яку я посилаюсь (зауважте, що я додав (link="logit")
, що мається на увазі family=binomial
; див . Glm та ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Давайте пройдемося через цей вихід (зауважте, що я змінив ім'я змінної у другому рядку під Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Так само, як є залишки в лінійній (OLS) регресії, можуть бути залишки в логістичній регресії та інших узагальнених лінійних моделях. Однак вони складніші, коли змінна відповіді не є суцільною. У GLiM можуть бути п'ять різних типів залишків, але стандартними є залишки відхилень. ( Залишки відхилення та відхилення є більш досконалими, тому я тут короткий; якщо це обговорення буде дещо важким, я б не хвилювався надто, ви можете пропустити його):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Для кожної точки даних, що використовується у вашій моделі, обчислюється відхилення, пов'язане з цією точкою. Зробивши це для кожної точки, у вас є набір таких залишків, і вищенаведений вихід є просто непараметричним описом їх розподілу.
Далі ми бачимо інформацію про коваріати, що саме людей, як правило, цікавить насамперед:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Area
Estimate
leaves.presence
Area
leaves.presence
Area
0.) У наступному стовпчику ми бачимо стандартну помилку, пов’язану з цими оцінками. Тобто вони є оцінкою того, скільки в середньому ці оцінки відскакують, якби дослідження було повторно виконане однаково, але з новими даними, знову і знову. (Якщо ви не дуже знайомі з ідеєю стандартної помилки, можливо, вам допоможе прочитати мою відповідь тут: як інтерпретувати стандартні помилки коефіцієнта в лінійній регресії .) Якби ми розділили оцінку на стандартну помилку, ми б отримати коефіцієнт, який, як вважається, зазвичай розподіляється з достатньо великими зразками. Це значення вказано в під z value
. Нижче Pr(>|z|)
перераховані двократні p-значенняякі відповідають цим z-значенням у стандартному нормальному розподілі. Нарешті, є традиційні зірки значущості (і відмітьте ключ під таблицею коефіцієнтів).
Dispersion
Рядок друкуються за замовчуванням з ГЛИМС, але не додає багато інформації тут (це більш важливо , з кількістю моделей, наприклад). Ми можемо це ігнорувати.
Нарешті, ми отримуємо інформацію про модель та її корисність:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Рядок про missingness
, часто, гм, відсутній. Він показує тут , тому що ви мали 314 спостережень , для яких або leaves.presence
, Area
або обидва зникли безвісти. Ці часткові спостереження не використовувались у відповідності моделі.
Residual deviance
Null deviance
Estimate
Area
Ж
AIC є ще одним заходом ЗГОДИ , яка бере до уваги здатність моделі , щоб відповідати даним. Це дуже корисно при порівнянні двох моделей, де одна може підходити краще, але, можливо, лише завдяки більш гнучкому і тим самим краще вміщувати будь-які дані. Оскільки у вас є лише одна модель, це неінформативно.
Посилання на Fisher scoring iterations
пов'язане з тим, як оцінювали модель. Лінійна модель може відповідати розв’язуванню рівнянь закритої форми. На жаль, цього неможливо зробити з більшістю GLiM, включаючи логістичну регресію. Натомість використовується ітеративний підхід ( за замовчуванням алгоритм Ньютона-Рафсона ). Вільно, модель підходить на основі здогаду про те, якими можуть бути оцінки. Потім алгоритм озирається, щоб побачити, чи вдасться покращити придатність, використовуючи замість цього різні оцінки. Якщо так, він рухається в тому напрямку (скажімо, використовуючи більш високе значення для оцінки), а потім знову підходить до моделі. Алгоритм зупиняється, коли він не сприймає, що переміщення знову принесе набагато додаткове вдосконалення. Цей рядок повідомляє вам, скільки ітерацій було до зупинки процесу та виведення результатів.
Щодо другої моделі та результатів, які ви перераховуєте, це просто інший спосіб відображення результатів. Зокрема, ці
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
- це той самий вид оцінок, про які йшлося вище (хоч і за іншою моделлю та подано з менш додатковою інформацією).