Що таке букетизація?


10

Я ходив довкола, щоб знайти чітке пояснення "букетизації" в машинному навчанні без удачі. Що я розумію поки що, букетизація схожа на квантування в цифровій обробці сигналів, коли діапазон нескінченних значень замінюється одним дискретним значенням. Це правильно?

Які плюси і мінуси (крім очевидного впливу втрати інформації) застосування букетізації? Чи є якісь правила щодо застосування букетизації? Чи існують якісь вказівки / алгоритми застосування букетизації перед застосуванням машинного навчання?


Можливо, я не маю правильної відповіді, але груба класифікація та точне класифікація [WoE та IV] допомагає у згуртуванні. Вибачте мене, якщо ви цього не очікували.
Шрікант Гухан

Відповіді:


4

Це широка тема, і ви зіткнетеся з цілою низкою причин, за якими дані повинні бути або вже є в букеті. Не всі вони пов'язані з точністю прогнозування.

По-перше, ось приклад, коли модельєр може захотіти здійснити шум. Припустимо, я будую модель оцінювання кредитів: я хочу знати схильність людей до дефолту за кредитом. У своїх даних я маю стовпець із зазначенням стану кредитного звіту. Тобто я замовив звіт у рейтингового агентства, і агентство повернуло, скажімо, свою власну оцінку разом із категоричною змінною, що вказує на надійність цього балу. Цей показник може бути набагато більш дрібнозернистим, ніж мені потрібно для моїх цілей. Наприклад, "недостатньо інформації для достовірного балу" може бути розбита на багато класів, таких як "вік молодший 20 років", "недавно переїхали в країну", "немає попередньої кредитної історії" тощо. Багато з цих класів може бути малонаселеним і, отже, досить марним у регресії чи іншій моделі. Щоб вирішити це, я, можливо, захочу об'єднати класи, як класи, щоб об'єднати статистичну потужність у "представницький" клас. Наприклад, для мене може бути розумним лише використання двійкового індикатора "повертається хороша інформація" проти "інформація не повертається". З мого досвіду, багато застосувань букетизації підпадають під цю загальнуруйнування малонаселених типів категорій .

Деякі алгоритми використовують букетизацію всередині країни. Наприклад, дерева, що знаходяться всередині алгоритмів підсилення, часто проводять більшу частину свого часу на етапі підбиття підсумків, де безперервні дані у кожному вузлі дискретизуються та обчислюється середнє значення відповіді у кожному відрізку. Це значно зменшує обчислювальну складність пошуку відповідного розбиття, без особливої ​​жертви в точності через прискорення.

Ви також можете просто отримати дані, попередньо зведені в пакет. Дискретні дані легше стискати та зберігати - довгий масив чисел з плаваючою комою майже не стискається, але, коли їх вирішують на "високий", "середній" та "низький", ви можете заощадити багато місця у вашій базі даних. Ваші дані також можуть надходити з джерела, орієнтованого на додаток, що не моделює. Це, як правило, трапляється багато, коли я отримую дані від організацій, які займаються менш аналітичною роботою. Їх дані часто використовуються для звітності та підсумовуються на високому рівні, щоб допомогти інтерпретації звітів мирянам. Ці дані все ще можуть бути корисними, але часто деяка сила втрачається.

Що я бачу меншу цінність, хоча, можливо, це я можу виправити, - це попередня розбиття безперервних вимірювань для цілей моделювання. Існує маса дуже потужних методів пристосування нелінійних ефектів до безперервних предикторів, а букенізація позбавляє вас можливості використовувати їх. Я схильний вважати це поганою практикою.


4

Згідно зі статтею "Високий рівень проти низькорівневих наукових даних" букетизація є

Крок згрупування (іноді його називають багатоваріантним роздрібненням) складається з виявлення метрик (і комбінацій 2-3 метрик) з високою прогнозованою потужністю, комбінування та бін їх відповідним чином, щоб зменшити відмінність між ковшами, зберігаючи відра досить великими.

Тож я розумію, що ви жадібно обробляєте дані відповідно до найбільш прогнозованих ознак, а потім аналізуєте підгрупи.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.