Ви маєте рацію в обох аспектах. Дивіться сторінку Френка Харрелла тут, щоб отримати довгий перелік проблем з бінінг неперервними змінними. Якщо ви користуєтеся кількома бункерами, ви викидаєте багато інформації в передбачувачі; якщо ви користуєтесь багатьма, ви схильні підходити до хитання в тому, що повинно бути плавним, якщо не лінійним, відносини та використовувати багато ступенів свободи. Взагалі краще використовувати поліноми ( ) або сплайни (кусочно багаточлени, які плавно з’єднуються) для предикторів. Біннінг - це справді хороша ідея, коли ви очікуєте розриву у відповіді на граничних точках - скажімо, температура, за якою кипить, або законний вік для водіння, - і коли відповідь між ними рівна.x+x2+…
Значення? - ну, це швидкий і простий спосіб врахувати кривизну, не замислюючись над цим, і модель може бути досить хорошою для того, для чого ви її використовуєте. Це, як правило, працює добре, коли у вас багато даних у порівнянні з кількістю предикторів, кожен предиктор розділений на безліч категорій; у цьому випадку діапазон реакцій невеликий, а середня відповідь точно визначається в межах кожної смуги предиктора.
[Редагувати у відповідь на коментарі:
Іноді існують стандартні відсічки, які використовуються в полі для безперервної змінної: наприклад, у медицині вимірювання артеріального тиску можна класифікувати як низьке, середнє або високе. Можливо, буде багато вагомих причин для використання таких обрізань, коли ви представляєте або застосовуєте модель. Зокрема, правила прийняття рішень часто базуються на меншій кількості інформації, ніж входить у модель, і, можливо, знадобиться їх просто застосувати. Але з цього не випливає, що ці відсічки підходять для підключення прогнозів, коли ви підходите до моделі.
Припустимо, деяка реакція постійно змінюється залежно від артеріального тиску. Якщо ви визначаєте групу підвищеного артеріального тиску як предиктор у вашому дослідженні, ефект, який ви оцінюєте, - це середня реакція на конкретний кров'яний тиск осіб цієї групи. Це не такоцінка середньої реакції людей з підвищеним артеріальним тиском в цілому населення або людей з групи підвищеного артеріального тиску в іншому дослідженні, якщо ви не вживаєте конкретних заходів для його досягнення. Якщо розподіл артеріального тиску в загальній популяції відомий, як я собі уявляю, вам краще буде обчислити середню реакцію людей з підвищеним артеріальним тиском у загальній популяції на основі прогнозів моделі з артеріальним тиском як безперервна змінна. Грубе binning робить вашу модель лише приблизно узагальненою.
Загалом, якщо у вас є питання щодо поведінки відповідей між відключеннями, підберіть найкращу модель, яку ви можете спочатку, а потім скористайтеся нею, щоб відповісти на них.]
[Що стосується презентації; Я думаю, це червона оселедець:
(1) Простота презентації не виправдовує поганих модельних рішень. (І у випадках, коли бінінг - це хороше моделююче рішення, воно не потребує додаткових обґрунтувань.) Безумовно, це само собою зрозуміло. Ніхто ніколи не рекомендує брати важливу взаємодію з моделі, оскільки це важко представити.
(2) Яку б модель вам не підходила, ви все одно можете представити її результати за категоріями, якщо ви думаєте, що це допоможе інтерпретувати. Хоча ...
(3) Ви повинні бути обережними, щоб переконатися, що це не допомагає неправильному трактуванню з причин, наведених вище.
(4) Представити нелінійні відповіді насправді не важко. Особиста думка, очевидно, та аудиторії відрізняються; але я ніколи не бачив графік пристосованих значень відповіді та значень передбачувача, хто-небудь загадує лише тому, що він вигнутий. Взаємодія, логіти, випадкові ефекти, мультиколінеарність, ... - це все набагато важче пояснити.]
[Додатковим моментом, підведеним @Roland, є точність вимірювання прогнозів; він припускає, що я думаю, що категоризація може бути доречною, коли вони не особливо точні. Здоровий глузд може підказати, що ви не вдосконалюєте справи, переформулюючи їх ще менш точно, і здоровий глузд буде правильним: MacCallum et al. (2002), "Про практику дихотомізації кількісних змінних", Психологічні методи , 7 , 1, с. 17–19.]