Я хочу підготувати класифікатора, який буде розмежовувати об'єкти Type A
та Type B
об'єкти з досить великим навчальним набором з приблизно 10000 об'єктів, приблизно половина з яких є, Type A
а половина - Type B
. Набір даних складається з 100 безперервних функцій, що деталізують фізичні властивості комірок (розмір, середній радіус тощо). Візуалізація даних у парних діаграмах розсіювання та густини говорить про те, що у багатьох розподілах ракових та нормальних клітин спостерігається значне збіг у розподілі.
В даний час я досліджую випадкові ліси як метод класифікації цього набору даних, і я бачив хороші результати. Використовуючи R, випадкові ліси здатні правильно класифікувати близько 90% об’єктів.
Одне з речей, які ми хочемо спробувати, - це створити такий собі "показник визначеності", який дозволить оцінити, наскільки ми впевнені в класифікації об'єктів. Ми знаємо, що наш класифікатор ніколи не буде на 100% точним, і навіть якщо буде досягнуто високої точності в прогнозах, ми хочемо, щоб кваліфіковані фахівці визначили, які об'єкти є справді Type A
і якими Type B
. Отже, замість того , щоб давати безкомпромісні прогнози Type A
або Type B
, ми хочемо представити оцінку для кожного об’єкта, яка опише, як це A
чи B
об’єкт. Наприклад, якщо ми розробили оцінку, яка коливається від 0 до 10, оцінка 0 може означати, що об’єкт дуже схожий на Type A
об'єкти, тоді як оцінка 10 буде означати, що об’єкт дуже схожий Type B
.
Я думав, що можу використати голоси у випадкових лісах, щоб скласти таку оцінку. Оскільки класифікація у випадкових лісах здійснюється більшістю голосів у лісі генерованих дерев, я вважаю, що об’єкти, за яких було проголосовано 100% дерев, Type A
будуть відрізнятися від об'єктів, за яких голосували, скажімо, 51% дерев бути Type A
.
В даний час я спробував встановити довільний поріг для частки голосів, яку повинен отримати об'єкт, щоб бути класифікованим Type A
або Type B
, і якщо поріг не буде пропущений, він буде класифікований як Uncertain
. Наприклад, якщо я змушую умову, що 80% і більше дерев повинні погодитися з рішенням про прийняття класифікації, я вважаю, що 99% передбачень класу є правильними, але близько 40% об'єктів позначаються як Uncertain
.
Чи було б тоді сенсом скористатися інформацією про голосування, щоб оцінити визначеність прогнозів? Або я рухаюся в неправильному напрямку зі своїми думками?