Яка користь від розриву суцільної змінної предиктора?


78

Мені цікаво, яке значення має взяття суцільної змінної предиктора та розбиття його (наприклад, на квінтили), перш ніж використовувати його в моделі.

Мені здається, що, поширюючи змінну, ми втрачаємо інформацію.

  • Це просто так, щоб ми могли моделювати нелінійні ефекти?
  • Якби ми зберігали змінну безперервною, і це насправді не було прямим лінійним співвідношенням, чи потрібно було б нам створити якусь криву, щоб найкраще відповідати даним?

12
1) Ні. Ви маєте рацію, що під час бінінгу втрачається інформація. Слід уникати, якщо це можливо. 2) В основному кращою є функція кривої, яка узгоджується з теорією даних.
O_Devinyak

8
Я не знаю про користь, але є ряд широко визнаних небезпек
Glen_b

2
Неохоче аргументуючи це нагода: Це може спростити клінічну інтерпретацію та представлення результатів - наприклад. артеріальний тиск часто є квадратичним предиктором, і клініцист може підтримувати використання обмежень для низького, нормального та високого рівня АД та може бути зацікавлений у порівнянні цих широких груп.
користувач20650

4
@ user20650: Я не зовсім впевнений, що вас зрозумів, але чи не було б краще підібрати найкращу модель, яку ви можете, і потім використовувати прогнози цієї моделі, щоб сказати все, що ви хочете сказати про широкі групи? У моєму дослідженні «група високого артеріального тиску» не обов'язково матиме такий самий розподіл тиску, що й загальна сукупність, тому їх результати не узагальнюватимуться.
Scortchi

7
Спрощене клінічне тлумачення є міражем. Оцінки ефектів від категоризованих безперервних змінних не знають інтерпретації.
Френк Харрелл

Відповіді:


64

Ви маєте рацію в обох аспектах. Дивіться сторінку Френка Харрелла тут, щоб отримати довгий перелік проблем з бінінг неперервними змінними. Якщо ви користуєтеся кількома бункерами, ви викидаєте багато інформації в передбачувачі; якщо ви користуєтесь багатьма, ви схильні підходити до хитання в тому, що повинно бути плавним, якщо не лінійним, відносини та використовувати багато ступенів свободи. Взагалі краще використовувати поліноми ( ) або сплайни (кусочно багаточлени, які плавно з’єднуються) для предикторів. Біннінг - це справді хороша ідея, коли ви очікуєте розриву у відповіді на граничних точках - скажімо, температура, за якою кипить, або законний вік для водіння, - і коли відповідь між ними рівна.x+x2+

Значення? - ну, це швидкий і простий спосіб врахувати кривизну, не замислюючись над цим, і модель може бути досить хорошою для того, для чого ви її використовуєте. Це, як правило, працює добре, коли у вас багато даних у порівнянні з кількістю предикторів, кожен предиктор розділений на безліч категорій; у цьому випадку діапазон реакцій невеликий, а середня відповідь точно визначається в межах кожної смуги предиктора.

[Редагувати у відповідь на коментарі:

Іноді існують стандартні відсічки, які використовуються в полі для безперервної змінної: наприклад, у медицині вимірювання артеріального тиску можна класифікувати як низьке, середнє або високе. Можливо, буде багато вагомих причин для використання таких обрізань, коли ви представляєте або застосовуєте модель. Зокрема, правила прийняття рішень часто базуються на меншій кількості інформації, ніж входить у модель, і, можливо, знадобиться їх просто застосувати. Але з цього не випливає, що ці відсічки підходять для підключення прогнозів, коли ви підходите до моделі.

Припустимо, деяка реакція постійно змінюється залежно від артеріального тиску. Якщо ви визначаєте групу підвищеного артеріального тиску як предиктор у вашому дослідженні, ефект, який ви оцінюєте, - це середня реакція на конкретний кров'яний тиск осіб цієї групи. Це не такоцінка середньої реакції людей з підвищеним артеріальним тиском в цілому населення або людей з групи підвищеного артеріального тиску в іншому дослідженні, якщо ви не вживаєте конкретних заходів для його досягнення. Якщо розподіл артеріального тиску в загальній популяції відомий, як я собі уявляю, вам краще буде обчислити середню реакцію людей з підвищеним артеріальним тиском у загальній популяції на основі прогнозів моделі з артеріальним тиском як безперервна змінна. Грубе binning робить вашу модель лише приблизно узагальненою.

Загалом, якщо у вас є питання щодо поведінки відповідей між відключеннями, підберіть найкращу модель, яку ви можете спочатку, а потім скористайтеся нею, щоб відповісти на них.]

[Що стосується презентації; Я думаю, це червона оселедець:

(1) Простота презентації не виправдовує поганих модельних рішень. (І у випадках, коли бінінг - це хороше моделююче рішення, воно не потребує додаткових обґрунтувань.) Безумовно, це само собою зрозуміло. Ніхто ніколи не рекомендує брати важливу взаємодію з моделі, оскільки це важко представити.

(2) Яку б модель вам не підходила, ви все одно можете представити її результати за категоріями, якщо ви думаєте, що це допоможе інтерпретувати. Хоча ...

(3) Ви повинні бути обережними, щоб переконатися, що це не допомагає неправильному трактуванню з причин, наведених вище.

(4) Представити нелінійні відповіді насправді не важко. Особиста думка, очевидно, та аудиторії відрізняються; але я ніколи не бачив графік пристосованих значень відповіді та значень передбачувача, хто-небудь загадує лише тому, що він вигнутий. Взаємодія, логіти, випадкові ефекти, мультиколінеарність, ... - це все набагато важче пояснити.]

[Додатковим моментом, підведеним @Roland, є точність вимірювання прогнозів; він припускає, що я думаю, що категоризація може бути доречною, коли вони не особливо точні. Здоровий глузд може підказати, що ви не вдосконалюєте справи, переформулюючи їх ще менш точно, і здоровий глузд буде правильним: MacCallum et al. (2002), "Про практику дихотомізації кількісних змінних", Психологічні методи , 7 , 1, с. 17–19.]


6
Відмінні коментарі до поширеного питання. Тут важливо пропагувати ретельне кількісне мислення. Тут уже занадто багато акцентів на перетинанні порогових значень, наприклад, над деяким рівнем катастрофи, нижче рівня комфорту.
Нік Кокс

14
Я б закликав когось продемонструвати підтвердження будь-яких обрізань, які використовуються медиками.
Френк Харрелл

Варто зауважити, що такий підхід до вирівнювання має певні переваги в інших сферах - він особливо популярний у поєднанні з великими нейронними мережами для прогнозування багатомодальних розподілів, таких як орієнтація автомобіля. Дивіться, наприклад, arxiv.org/abs/1612.00496 .
Н. МакА.

11

Частина цієї відповіді, яку я дізнався з моменту запитання, полягає в тому, що не поширюється, а бінінг прагне відповісти на два дещо різні питання - Що таке додаткова зміна даних? і в чому різниця між найнижчим і найвищим? .

Не бінінг говорить, що "це кількісна оцінка тенденції, що спостерігається в даних", а бінінг говорить: "Я не маю достатньо інформації, щоб сказати, наскільки це змінюється за кожен приріст, але я можу сказати, що верх відрізняється від нижнього". .


5

Як клініцист, я думаю, що відповідь залежить від того, що ви хочете зробити. Якщо ви хочете максимально підігнати або зробити найкраще коригування, ви можете використовувати змінні безперервного і квадратного значення.

Якщо ви хочете описати і повідомити складні асоціації для нестатистично орієнтованої аудиторії, використання категоризованих змінних краще, приймаючи, що ви можете дати дещо зсуттєві результати в останньому десятку. Я вважаю за краще використовувати принаймні три категорії для показу нелінійних асоціацій. Альтернативою є створення графіків та прогнозованих результатів у певних точках. Тоді вам може знадобитися скласти сімейство графіків для кожного безперервного коваріату, що може бути цікаво. Якщо ви боїтеся занадто великої упередженості, я думаю, ви можете протестувати обидві моделі та побачити, чи важлива різниця чи ні. Потрібно бути практичним і реалістичним.

Я думаю, що ми можемо усвідомити, що в багатьох клінічних ситуаціях наші розрахунки не ґрунтуються на точних даних, і коли я, наприклад, призначаю ліки дорослому, я це не роблю з точними мг на кілограм (притча про вибір між хірургією та медикаментозним лікуванням просто дурниця).


1
Чому саме аналогія є дурницею? Тому що категоризація безперервних змінних ніколи не дає значно гірших моделей? Або тому, що використання значно гіршої моделі ніколи не має ніяких практичних наслідків?
Scortchi

9
Це просто не так @ Роланд. Оцінки, отримані від скорочень, прості лише тому, що люди не розуміють, що оцінюють оцінки. Це тому, що вони не оцінюють наукову кількість, тобто величину, яка має значення поза зразком або експериментом. Наприклад, коефіцієнт високих: низький коефіцієнт або середня різниця збільшаться, якщо ви додасте до набору даних пацієнтів із надвисокими або наднизькими значеннями. Також використання відсічок означає, що біологія припиняється, а це не так.
Френк Харрелл

@Scortchi Перехід від медичного до хірургічного лікування, тому що це легше пояснити (чи це насправді?), Було б заміною віку на зріст як пояснювальну змінну.
Роланд

Я згоден про те, щоб уникнути дихотомізованих змінних. Клінічна медицина не є наукою про ракету, де важливий останній десятковий. У моделях, з якими я працюю, результати змінюються лише в останній десятковій категорії, якщо я використовую категорії вік проти віку як безперервні та квадратні змінні, але значно збільшує розуміння та комунікабельність асоціацій.
Роланд

4

Як уже згадували попередні афіші, як правило, краще уникати дихотомізації суцільної змінної. Однак, відповідаючи на ваше запитання, є випадки, коли дихотомізація суцільної змінної дає переваги.

Наприклад, якщо дана змінна містить пропущені значення для значної частки сукупності, але, як відомо, є високопрогнозною і самі пропущені значення несуть прогностичне значення. Наприклад, у моделі оцінки кредитного рахунку розглянемо змінну, скажімо, середню револьверно-кредитну сальдо (яка надана, технічно не є безперервною, але в цьому випадку відображає нормальний розподіл, досить близький, щоб розглядатися як такий), який містить відсутні значення приблизно 20% пулу заявників на даному цільовому ринку. У цьому випадку відсутні значення для цієї змінної являють собою окремий клас - ті, у кого немає відкритої, револьверно-кредитної лінії; ці клієнти демонструватимуть зовсім іншу поведінку порівняно з, скажімо, тими, хто має доступні відновлювані кредитні лінії, але регулярно не мають балансу.

Ще одна перевага дихотомізації: вона може бути використана для пом’якшення наслідків значних переживаючих, які перекошують коефіцієнти, але представляють реалістичні випадки, які потрібно вирішити. Якщо ті, хто відрізняється формою, не сильно відрізняються за результатами від інших значень у найближчих відсотках, але перекошують параметри, достатні для досягнення граничної точності, тоді може бути корисно згрупувати їх із значеннями, що демонструють подібні ефекти.

Іноді розподіл, природно, піддається набору класів, і в цьому випадку дихотомізація фактично надасть вам більш високий ступінь точності, ніж безперервна функція.

Також, як було сказано раніше, залежність від аудиторії простота викладу може переважати втрати на точність. Щоб використовувати кредитний бал знову як приклад, на практиці високий ступінь регулювання дійсно робить практичний випадок для дискреції часом. Хоча вища ступінь точності може допомогти кредитору скоротити втрати, практикуючі повинні також врахувати, що моделі повинні бути легко зрозуміти регуляторним органам (які можуть вимагати тисячі сторінок зразкової документації) та споживачам, яким, якщо вони відмовляються в кредиті, юридично надається право на пояснення чому.

Все залежить від проблеми та даних, але, безумовно, є випадки, коли дихотомізація має свої переваги.


Дихотомізацію складають у дві бункери - ви маєте на увазі дискретизацію?
Scortchi

2
В обох ваших перших двох прикладах дискретизація намагається пробитися до партії, причепившись до сумлінного гостя. Не обманюйте. (1) Якщо ви хочете моделювати відсутність відкритої відновлюваної кредитної лінії як окремого класу, просто використовуйте фіктивну змінну, щоб вказати цю умову та призначити будь-яке постійне значення для середнього оборотного кредитного балансу. (2) Якщо ви хочете трактувати певні екстремальні значення предиктора однаково, як "великі" чи "малі", обрізайте їх; не потрібно зациклюватися на решті значень. Третій випадок є безперечним - сміливо додайте приклади.
Scortchi

3

Якщо змінна впливає на певний поріг, створіть нову змінну, використовуючи бінінг, це добре зробити. Я завжди зберігаю обидві змінні, оригінальну та бінінгову, і перевіряю, яка змінна є кращим предиктором.


3

Я відданий шанувальник порад Френка Харрелла про те, що аналітики повинні протистояти передчасній дискретизації суцільних даних. У мене є кілька відповідей на CV та SO, які демонструють, як візуалізувати взаємодію між постійними змінними, оскільки я думаю, що це ще більш цінна лінія дослідження. Однак у мене також є досвід реального досвіду в медичному світі, який перешкоджає дотриманню цих порад. Часто існують привабливі підрозділи, яких очікують і «клініцисти», і неклініки. Умовна "верхня межа норми" є однією з таких "природних" точок розщеплення. По-перше, слід спочатку вивчити статистичне підґрунтя зв'язку, а потім донести сутність результатів у термінах, які ваша аудиторія очікує і може легко зрозуміти. Незважаючи на мою "алергію" до барплотів, вони надзвичайно поширені в науковому та медичному дискурсі. Тож аудиторія, ймовірно, матиме готовий пізнавальний зразок для їх опрацювання та зможе інтегрувати результати у свою базу знань.

Крім того, для графічного відображення модельованої взаємодії між нелінійними формами змінних предиктора потрібні представлення контурних графіків або дисплеїв каркасних каркасів, які у більшості аудиторії будуть мати певні труднощі з перетравленням. Я вважав медичну та широку громадськість більш сприйнятливими до презентацій, які мають дискретні та сегментовані результати. Тому я припускаю висновок, що розщеплення належним чином проводиться після завершення статистичного аналізу; і робиться на етапі презентації.


1

Багато разів суцільна змінна кількість змінних виникає з неприємним відчуттям заподіяння шкоди через втрачену інформацію. Однак не тільки те, що ви можете обмежити втрату інформації, ви можете отримати інформацію та отримати більше переваг.

Якщо ви використовуєте бінінг та отримуєте категоризовані змінні, ви, можливо, зможете застосувати алгоритми навчання, які не застосовуються до змінних континуумів. Ваш набір даних може краще відповідати одному з цих алгоритмів, тому ось ваша перша користь.

Ідея оцінювання втрат у зв’язку з binning базується на роботі "PAC навчання з невідповідними атрибутами". Припустимо, наша концепція є бінарною, щоб ми могли розділити вибірки на позитивні та негативні. Для кожної пари від'ємних та позитивних вибірок різницю понять можна пояснити різницею в одній із ознак (інакше, це неможливо пояснити даними ознаками). Набір відмінностей ознак - це набір можливих пояснень різниці понять, отже, дані, які слід використовувати для визначення поняття. Якщо ми виконували binning і ми все-таки отримували однаковий набір пояснень для пар, ми не втрачали ніякої необхідної інформації (стосовно алгоритмів навчання, які працюють за допомогою таких порівнянь). Якщо наша категоризація буде дуже суворою, ми, мабуть, матимемо менший набір можливих пояснень, але ми зможемо точно виміряти, скільки і де ми програємо. Це дасть нам змогу торгувати кількістю бункерів проти набору пояснень.

Поки ми бачили, що ми можемо не втратити через категоризацію, але якщо ми розглядаємо можливість застосування такого кроку, ми хотіли б отримати користь. Дійсно, ми можемо виграти від категоризації

Багато алгоритмів навчання, яким буде запропоновано класифікувати вибірку зі значеннями, які не бачені на наборі поїздів, вважатимуть значення "невідомим". Таким чином, ми отримаємо контейнер з "невідомими", який включає ВСІ значення, які не були помічені під час поїзда (або навіть їх недостатньо бачили). Для таких алгоритмів різниця між невідомими парами значень не буде використана для покращення класифікації. Порівняйте ваші пари після бінінгу з парами з невідомими і перевірте, чи корисне ваше покоління і чи ви насправді здобули.

Ви можете оцінити, наскільки поширеними будуть невідомі значення, перевіривши розподіл значень кожної функції. Особливістю були цінності, які з’являються лише декілька разів, значна частина їх розповсюдження є хорошими кандидатами на поповнення. Зауважте, що в багатьох сценаріях у вас буде безліч функцій з невідомим, що збільшує ймовірність того, що зразок буде містити невідоме значення. Алгоритми, що стосуються всіх або багатьох особливостей, схильні до помилок у таких ситуаціях.

А. Дагат та Л. Геллерштейн, "Навчання PAC з невідповідними ознаками", у "Праці IEEE Symp. Фонду інформатики ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.