Тому я прочитав кілька дописів про те, чому слід уникати binning завжди . Популярна посилання на цю заяву - це посилання .
Головне, що точки поповнення (або точки відрізку) є досить довільними, а також втрата інформації, що виникає, і що слід віддати перевагу сплайнам.
Однак зараз я працюю з API Spotify, який має безліч нескінченних заходів довіри щодо кількох їх особливостей.
Дивлячись на одну особливість, "інструментальність", посилання констатують:
Прогнозує, чи доріжка не містить вокалу. У цьому контексті звуки "ох" і "ах" трактуються як інструментальні. Репетиція звукозапису та звучання звуку є чітко “голосовою”. Чим ближче значення інструментальності до 1,0, тим більша ймовірність, що трек не містить вокального змісту. Значення вище 0,5 призначені для відображення інструментальних треків , але довіра вище, оскільки значення наближається до 1,0.
Враховуючи дуже похилий розподіл моїх даних (приблизно 90% зразків ледь перевищує 0, я вважав за розумне перетворити цю особливість на дві категоричні ознаки: "інструментальний" (усі вибірки зі значенням вище 0,5) та "неінструментальний" "(для всіх зразків зі значенням нижче 0,5).
Це неправильно? І яка б була альтернатива, коли майже всі мої (безперервні) дані обертаються навколо одного значення? З того, що я розумію щодо сплайнів, вони також не будуть працювати з проблемами класифікації (що я роблю).