Використання процентилів як предикторів - хороша ідея?


9

Я думаю про проблему, яка полягає в тому, щоб передбачити вхід (витрати) клієнта за допомогою лінійної регресії.

Я розглядаю, які функції використовувати як вхідні дані, і цікаво, чи було б добре використовувати перцентил змінної як вхідні дані.

Наприклад, я міг використовувати дохід компаній як вкладення. Мені цікаво, чи можу я замість цього використати процентний дохід компанії.

Іншим прикладом може бути категоричний галузевий класифікатор (NAICS) - якби я дивився на середні витрати за кодом NAICS, а потім присвоював кожен код NAICS "Percentile NAICS", чи це була б вагома пояснювальна змінна, яку я міг би використовувати?

Просто цікаво, чи є якісь проблеми, про які слід пам’ятати при використанні відсотків? Це в чомусь еквівалентно типу масштабування функцій?


2
Якщо у вас є оригінальні дані, то чому б ви хотіли використовувати відсотки? Можливо, це не дуже гарна ідея, оскільки відсотки - це лише порядкові, а не метричні міри. Але я не впевнений в упередженості / ефективності.
hplieninger

9
Відсоток Хs суперечить їм способом Хs мають свою дію. Поширена помилка полягає у відсотковому вазі або ІМТ при прогнозуванні результату здоров'я. Фізика ваги диктує, що саме фізичні розміри людини стосуються її функцій тіла, а не скільки осіб у вибірці, які нижче ваги одного суб'єкта чи ІМТ.
Френк Харрелл

1
якщо ви можете розумно об'єднати свою галузеву змінну в групи, наприклад, 4, використовуйте фіктивне кодування (або будь-яку іншу відповідну схему кодування), і ви закінчили. Саме так я б це зробив.
hplieninger

3
Я не можу придумати причину, чому відсоток буде лінійно пов'язаний із залежною змінною. Якщо ви можете подумати над одним, тоді це може бути добре (і, будь ласка, оновіть своє запитання із своєю причиною)
Peter Flom

1
Якщо ви хочете використовувати код NAICS в якості проксі-сервера для витрат компанії, тоді ви можете це зробити, використовуючи середні витрати в його коді NAICS - не потрібно використовувати відсотки.
Scortchi

Відповіді:


1

Якщо ваша модель тягне за собою певний конкурс у фірмових доходах, ви можете використовувати процентиль. Процентиль журналу здається більш значущим, квантові значення не будуть лінійними, або я так собі уявляю.

У цій історії ви включаєте ln (%) фірм із доходами в рамках спостережної фірми. Історія полягає в тому, що з високими доходами є репутація, яка краща, ніж у фірм з низьким рівнем доходів, і це відношення "мати більше конкуренції" є релевантним, а не самим рівнем доходу. Я міг би бачити це як важливу частину твердого визнання та брендингу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.