Це широка тема, і ви зіткнетеся з цілою низкою причин, за якими дані повинні бути або вже є в букеті. Не всі вони пов'язані з точністю прогнозування.
По-перше, ось приклад, коли модельєр може захотіти здійснити шум. Припустимо, я будую модель оцінювання кредитів: я хочу знати схильність людей до дефолту за кредитом. У своїх даних я маю стовпець із зазначенням стану кредитного звіту. Тобто я замовив звіт у рейтингового агентства, і агентство повернуло, скажімо, свою власну оцінку разом із категоричною змінною, що вказує на надійність цього балу. Цей показник може бути набагато більш дрібнозернистим, ніж мені потрібно для моїх цілей. Наприклад, "недостатньо інформації для достовірного балу" може бути розбита на багато класів, таких як "вік молодший 20 років", "недавно переїхали в країну", "немає попередньої кредитної історії" тощо. Багато з цих класів може бути малонаселеним і, отже, досить марним у регресії чи іншій моделі. Щоб вирішити це, я, можливо, захочу об'єднати класи, як класи, щоб об'єднати статистичну потужність у "представницький" клас. Наприклад, для мене може бути розумним лише використання двійкового індикатора "повертається хороша інформація" проти "інформація не повертається". З мого досвіду, багато застосувань букетизації підпадають під цю загальнуруйнування малонаселених типів категорій .
Деякі алгоритми використовують букетизацію всередині країни. Наприклад, дерева, що знаходяться всередині алгоритмів підсилення, часто проводять більшу частину свого часу на етапі підбиття підсумків, де безперервні дані у кожному вузлі дискретизуються та обчислюється середнє значення відповіді у кожному відрізку. Це значно зменшує обчислювальну складність пошуку відповідного розбиття, без особливої жертви в точності через прискорення.
Ви також можете просто отримати дані, попередньо зведені в пакет. Дискретні дані легше стискати та зберігати - довгий масив чисел з плаваючою комою майже не стискається, але, коли їх вирішують на "високий", "середній" та "низький", ви можете заощадити багато місця у вашій базі даних. Ваші дані також можуть надходити з джерела, орієнтованого на додаток, що не моделює. Це, як правило, трапляється багато, коли я отримую дані від організацій, які займаються менш аналітичною роботою. Їх дані часто використовуються для звітності та підсумовуються на високому рівні, щоб допомогти інтерпретації звітів мирянам. Ці дані все ще можуть бути корисними, але часто деяка сила втрачається.
Що я бачу меншу цінність, хоча, можливо, це я можу виправити, - це попередня розбиття безперервних вимірювань для цілей моделювання. Існує маса дуже потужних методів пристосування нелінійних ефектів до безперервних предикторів, а букенізація позбавляє вас можливості використовувати їх. Я схильний вважати це поганою практикою.