Що таке змішування даних?


15

Цей термін часто з’являється у потоках, пов’язаних із методом .

Чи поєднуються конкретний метод у вивченні даних та статистичному навчанні? Я не можу отримати релевантний результат від google.

Здається, суміш поєднує результати багатьох моделей і призводить до кращого результату. Чи є якийсь ресурс, який допомагає мені більше знати про це?

Відповіді:


10

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf Деякі документи, які допоможуть вам зрозуміти, що таке суміш. Я думаю, ви можете також google для вибору / навчання ансамблів, а також укладання.

Однак, ваше загальне розуміння "змішування результатів багатьох моделей та отримання кращого результату" є правильним.


Це посилання також було взято звідкись з форуму kaggle. Я врятував лише посилання pdf, але не обговорення, хоча ...
Король

12

Підвищення (як згадувалося у зв'язаній дискусії) - це метод, який поєднує набір алгоритмів, щоб отримати результат, який кращий, ніж те, що можна отримати з будь-якого одного алгоритму. Наприклад, випадкові ліси - це метод поєднання різних дерев класифікації для алгоритму класифікації. Такий підхід формально називають ансамблевим усередненням (хоча алгоритм зазвичай застосовує правило більшості). Здається, що змішування - це слово, яке деякі люди використовують для опису стимулюючого підходу до класифікації.


То чи можна це назвати змішуванням, якщо я заміню класифікаційні дерева в звичайній моделі адабооста на інший набір алгоритмів?
TomHall

Привіт, Майкл. Ваша відповідь дуже корисна, але, прикро мені, я новачок у статистиці та ще не маю достатньої репутації, щоб проголосувати вашу відповідь.
TomHall

1
Ну тоді не забудьте зробити це після того, як отримаєте кілька балів повторень.
Майкл Р. Черник

0

У галузевому змішуванні даних йдеться не про моделі, а про попередню обробку : саме тоді, коли дані об'єднуються, надходять з різних джерел, наприклад, з бази даних та інших даних з файлів CSV.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.