Побудова лінійної моделі для співвідношення проти відсотків?


20

Припустимо, я хочу побудувати модель, щоб передбачити якесь співвідношення чи відсоток. Наприклад, скажімо, я хочу передбачити кількість хлопців проти дівчат, які будуть відвідувати вечірку, і особливості вечірки, яку я можу використовувати в моделі, такі речі, як кількість реклами для вечірки, розмір місця проведення, чи є буде будь-який алкоголь на вечірці тощо (це лише вигаданий приклад; функції не дуже важливі.)

Моє запитання: в чому різниця між прогнозуванням співвідношення проти відсотків і як моя модель змінюється залежно від того, яку я вибираю? Чи один кращий за інший? Чи якась інша функція краща за будь-яку? (Мені не дуже цікаво конкретне число співвідношення проти відсотків; я просто хочу, щоб я міг визначити, які партії мають більше шансів "хлопчикові вечірки" проти "дівчачі вечірки".) Наприклад, я мислення:

  • Якщо я хочу передбачити відсоток (скажімо, # boys / (# boys + # girls)тоді, оскільки моя залежна особливість обмежена між 0 і 1, я, мабуть, повинен використовувати щось на зразок логістичної регресії замість лінійної регресії.
  • Якщо я хочу передбачити співвідношення (скажімо, # boys / # girlsабо # boys / (1 + # girls)уникнути помилок поділу на нуль), то моя залежна особливість є позитивною, тому я можу застосувати якесь (log?) Перетворення перед використанням лінійної регресії? (Або якась інша модель? Які моделі регресії використовуються для позитивних даних, які не враховуються?)
  • Чи краще взагалі передбачити (сказати) відсоток замість співвідношення, і якщо так, то чому?

Залежно від вашої конкретної програми та того, що ви намагаєтеся моделювати, слід розглянути можливість використання композиційного аналізу даних ( en.wikipedia.org/wiki/Compositional_data ); Є кілька тонких речей, які слід враховувати, коли функції (незалежні змінні) дорівнюють одиниці. Будь ласка, подивіться твір Джона Ейчісона.
ctbrown

Відповіді:



15

Відлуння першої відповіді. Не турбуйтеся конвертувати - просто моделюйте підрахунки та коваріати безпосередньо.

Якщо ви зробите це і пристосуєте двочленну (або еквівалентно логістичну) модель регресії до підрахунку хлопчика, ви, якщо ви оберете звичайну функцію зв'язку для таких моделей, неявно вже відповідатимуть співвідношенню хлопчиків і дівчаток (коваріатно згладженим). Це лінійний предиктор.

Основна причина моделювання підрахунків безпосередньо, а не пропорції або співвідношення - це те, що ви не втрачаєте інформацію. Інтуїтивно ви будете набагато впевненішими у висновках із спостережуваного співвідношення 1 (хлопчики та дівчатка), якби це бачило 100 хлопців та 100 дівчат, ніж бачення 2 та 2. Отже, якщо у вас є коваріати, у вас буде більше інформація про їх вплив та потенційно краща модель прогнозування.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.