Стратифікована класифікація з випадковими лісами (або іншим класифікатором)


12

Отже, у мене є матриця розміром приблизно 60 х 1000. Я розглядаю її як 60 об'єктів з 1000 особливостями; 60 об’єктів об’єднані в 3 класи (a, b, c). 20 предметів у кожному класі, і ми знаємо справжню класифікацію. Мені хотілося б вивчити під контролем цей набір з 60 прикладів навчання, і мене цікавлять як точність класифікатора (і пов'язані з ним показники), так і вибір функції на 1000 функцій.

По-перше, як моя номенклатура?

Тепер справжнє питання:

Я міг би кинути на нього випадкові ліси, як це зазначено, або будь-яку кількість інших класифікаторів. Але є тонкощі - я дійсно дбаю лише про те, щоб відрізняти клас c від класів a і b. Я міг би об'єднати класи a і b, але чи є хороший спосіб використовувати апріорні знання про те, що всі об'єкти, що не стосуються c, ймовірно, утворюють два різних кластери? Я вважаю за краще використовувати випадкові ліси або їхні варіанти, оскільки це було показано, що він ефективний для даних, подібних до моїх. Але я міг би переконатись, спробувавши деякі інші підходи.


Я не бачу проблем із вашою номенклатурою. Це все у вас 60 об’єктів? Потім, для обчислення точності класифікації, потрібно розділити набір даних на набори поїздів, тестів (а також перевірку). Існують різні способи зробити це, але -поширена перехресна перевірка є найбільш поширеною, я думаю. k
emrea

1
Так, саме ці 60. Але я думаю, що для випадкових лісів кожне дерево рішень створюється з підмножиною зразків, тому ви можете отримати оціночну помилку узагальнення, застосувавши кожен із існуючих 60 зразків лише до тих дерев у лісі, які не Ви не бачите цього зразка під час будівництва. ( stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#ooberr ) Тому, можливо, типова перехресна перевірка тут не потрібна.
користувач116293

ви повинні бути дуже стурбовані переодяганням тут. У вас є 1000 змінних з 60 об'єктами, я б почував себе набагато краще, якби це був інший набіг навколо, і я все одно сказав би, ви повинні турбуватися про надмірну обробку. Чи існує логічний чи семантичний спосіб зменшити кількість змінних перед аналізом?
дженк

Відповіді:


8

чи є хороший спосіб використовувати апріорні знання про те, що всі об'єкти, що не входять в C, ймовірно, утворюють два різних кластери

Якщо ви використовуєте метод, заснований на дереві, я не думаю, що це має значення, оскільки ці класифікатори розділяють простір функцій, то подивіться на частку зразків у кожному класі. Отже, важливо лише відносне виникнення класу c у кожному кінцевому вузлі.

Якщо ви використовували щось на зразок суміші нормалів, LDA тощо, поєднання двох кластерів було б поганою ідеєю (якщо припустити, що класи a і b утворюють унікальні кластери). Тут потрібно зберегти структуру класів, щоб точно описати простір функцій, який відображається на a, b і c. Ці моделі передбачають, що функції для кожного класу мають різний нормальний розподіл. Якщо ви поєднаєте a і b, ви змусите один нормальний розподіл підходити до суміші.

Підсумовуючи дерева, це не має великого значення, якщо ви:

I. Створіть три класифікатори (1. a vs b, 2. a vs c і 3. b vs c), після чого прогнозуйте методом голосування.

II. Об’єднайте класи a і b, щоб утворити двокласну задачу.

ІІІ. Прогнозуйте всі три класи, а потім передбачте передбачення на значення двох класів (наприклад, f (c) = c, f (a) = не c, f (b) = не c).

Однак якщо ви використовуєте метод, який відповідає розподілу для кожного класу, то уникайте II. і перевірити, хто з І. або III. працює краще для вашої проблеми


III звучить добре - хоча я думаю, якщо класифікатор каже, що вибіркою є .33 a, .33 b і .34 c, я, мабуть, повинен підсумовувати ймовірності для a і b і, таким чином, обирати "не c".
користувач116293

1
Для (I), яка хороша процедура роздільного голосування (1: a, 2: c, 3: b), чи це, ймовірно, занадто рідко, щоб насправді мати значення?
користувач116293

Для ІІІ. те, що ви пропонуєте, є правильним. Для І-го даних на 3-му класі я не думаю, що існує жодна міра розділити голоси (1 для кожного), оскільки перехідна властивість повинна була бути порушена. Однак для класів 4+ ви, можливо, матимете зв'язки вгорі, і в цьому випадку ви можете використовувати числову кількість, а не виграш / програш; тобто підсумовують ваги, приймаючи клас максимальної ваги.
muratoa
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.