Запитання з тегом «data-preprocessing»

1
Кодування "гаряче проти фіктивного" в Scikit-learn
Існує два різні способи кодування категоричних змінних. Скажімо, одна категоріальна змінна має n значень. Одно гаряче кодування перетворює його в n змінних, тоді як фіктивне кодування перетворює його в n-1 змінні. Якщо у нас є k категоріальні змінні, кожна з яких має n значень. Одне гаряче кодування закінчується змінними kn …

2
Чи потрібні випадкові ліси для введення змінних або масштабування вхідних змінних?
Мої вхідні змінні мають різні розміри. Деякі змінні десяткові, а деякі сотні. Чи важливо централізувати (віднімати середнє значення) або масштабувати (поділити на стандартне відхилення) ці вхідні змінні, щоб зробити дані безрозмірними при використанні випадкових лісів?

2
Нейрові мережі: одночасна змінна переважна безперервна?
У мене є вихідні дані, які містять близько 20 стовпців (20 функцій). Десять із них - це суцільні дані, 10 з них - категоричні. Деякі з категоричних даних можуть мати приблизно 50 різних значень (США). Після того як я попередньо обробляла дані, 10 безперервних стовпців стають 10 підготовленими стовпцями, а …

3
Які алгоритми вимагають однокольорового кодування?
Я ніколи не знаю, коли використовувати однокольорове кодування для не упорядкованих категоричних змінних, а коли не потрібно. Я використовую його, коли алгоритм використовує метрику відстані для обчислення подібності. Чи може хто-небудь дати загальне правило щодо того, які типи алгоритмів вимагатимуть, щоб не упорядковані категоричні ознаки були однокольоровими, а які - …

1
Питання про віднімання середнього значення на поїзді / дійсному / тестовому комплекті
Я роблю попередню обробку даних і після цього збираюся створювати конвонети на своїх даних. Моє запитання: Скажіть, у мене є загальний набір даних зі 100 зображеннями, я обчислював середнє значення для кожного з 100 зображень, а потім віднімав його з кожного з зображень, потім розділяв це на набір поїздів і …

2
Що таке букетизація?
Я ходив довкола, щоб знайти чітке пояснення "букетизації" в машинному навчанні без удачі. Що я розумію поки що, букетизація схожа на квантування в цифровій обробці сигналів, коли діапазон нескінченних значень замінюється одним дискретним значенням. Це правильно? Які плюси і мінуси (крім очевидного впливу втрати інформації) застосування букетізації? Чи є якісь …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.