Розміщення цікавішої інформації для нащадків.
Існує старша публікація, в якій обговорюється аналогічна проблема щодо використання даних підрахунку як незалежної змінної для логістичних регресій.
Ось:
Чи використання даних підрахунку як незалежної змінної порушує будь-які припущення GLM?
Як згадував Глен, якщо ви просто намагаєтеся передбачити дихотомічний результат, можливо, ви зможете використовувати непереформовані дані підрахунку як прямий компонент вашої логістичної регресійної моделі. Однак зауваження: коли незалежна змінна (IV) розподілена по пуассону І коливається на багато порядків, використовуючи неотримані значення, це може призвести до дуже впливових точок, що, в свою чергу, може змістити вашу модель. У такому випадку, можливо, буде корисно здійснити перетворення на IV, щоб отримати більш надійну модель.
Такі трансформації, як квадратний корінь або журнал, можуть посилити співвідношення між коефіцієнтом IV та коефіцієнтом шансів. Наприклад, якщо зміни X на три цілі порядки (від медіанного значення X) відповідали лише 0,1 зміні ймовірності виникнення Y (далеко від 0,5), то можна з упевненістю припустити, що будь-які розбіжності моделі будуть призводять до значної упередженості через екстремальний важіль від сторонніх значень X.
Для подальшої ілюстрації, уявіть, що ми хотіли скористатись рейтингом Сковілля різних перців чилі (домен [X] = {0, 3,2 мільйона}), щоб передбачити ймовірність того, що людина класифікує перець як "незручно гострий" (діапазон [Y] = {1 = так, 0 = ні}) після з'їдання перцю відповідної оцінки X.
https://en.wikipedia.org/wiki/Scoville_scale
Якщо ви подивитеся на діаграму оцінок Scoville, то можна побачити, що перетворення журналу необроблених рейтингів Scoville дасть вам ближче наближення до суб'єктивних (1-10) оцінок кожного чилі.
Тож у цьому випадку, якби ми хотіли зробити більш надійну модель, яка фіксує справжнє співвідношення між необробленими показниками Сковіля та суб'єктивним тепловим рейтингом, ми могли б виконати логарифмічну трансформацію на значеннях X. Цим ми зменшуємо вплив надмірно великого домену X, ефективно "скорочуючи" відстань між значеннями, які різняться на порядок, і, отже, зменшуючи вагу будь-яких X людей, які не мають сили (наприклад, тих, що не мають толерантності до капсаїцину та / або божевільних спецій!) !!) маємо на наших прогнозах.
Сподіваюсь, це додає цікавого контексту!