Припустимо, я хочу побудувати модель, щоб передбачити якесь співвідношення чи відсоток. Наприклад, скажімо, я хочу передбачити кількість хлопців проти дівчат, які будуть відвідувати вечірку, і особливості вечірки, яку я можу використовувати в моделі, такі речі, як кількість реклами для вечірки, розмір місця проведення, чи є буде будь-який алкоголь на вечірці тощо (це лише вигаданий приклад; функції не дуже важливі.)
Моє запитання: в чому різниця між прогнозуванням співвідношення проти відсотків і як моя модель змінюється залежно від того, яку я вибираю? Чи один кращий за інший? Чи якась інша функція краща за будь-яку? (Мені не дуже цікаво конкретне число співвідношення проти відсотків; я просто хочу, щоб я міг визначити, які партії мають більше шансів "хлопчикові вечірки" проти "дівчачі вечірки".) Наприклад, я мислення:
- Якщо я хочу передбачити відсоток (скажімо,
# boys / (# boys + # girls)
тоді, оскільки моя залежна особливість обмежена між 0 і 1, я, мабуть, повинен використовувати щось на зразок логістичної регресії замість лінійної регресії. - Якщо я хочу передбачити співвідношення (скажімо,
# boys / # girls
або# boys / (1 + # girls)
уникнути помилок поділу на нуль), то моя залежна особливість є позитивною, тому я можу застосувати якесь (log?) Перетворення перед використанням лінійної регресії? (Або якась інша модель? Які моделі регресії використовуються для позитивних даних, які не враховуються?) - Чи краще взагалі передбачити (сказати) відсоток замість співвідношення, і якщо так, то чому?