Контрольоване навчання з невизначеними даними?


11

Чи існує існуюча методологія застосування наглядової моделі навчання до непевного набору даних? Наприклад, скажімо, у нас є набір даних з класами A і B:

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

Як ми могли тренувати модель машинного навчання на цьому? Дякую.

Відповіді:


11

Як числова якість, яку ви присвоюєте своїм даним, я думаю, що ця «визначеність», безумовно, може бути використана як вага. Більш високі показники "визначеності" збільшують вагу, яку має дана функція прийняття рішення, що має сенс.

Багато контрольованих алгоритмів навчання підтримують зважування, тому вам просто потрібно знайти зважену версію тієї, яку ви збираєтесь використовувати.


2
(+1) І оскільки по суті ваги будуть, як правило, виконувати роль " копій " точок, ймовірно, будь-який алгоритм може бути включений до зваженої версії таким чином, наприклад, у прикладі ОП, передаються у [5,8,10] примірниках 3 бали, що відображають їхню впевненість у [50,80,100]%. (Це ніколи не повинно бути справді необхідним, так як якщо б це можна було зробити в принципі, має бути відповідна зважена версія алгоритму.)
GeoMatt22

5

Замість того, щоб мати мітки A або B, ви можете замінити їх безперервними значеннями визначеності - наприклад, відповідає тому, що ви впевнені, це , відповідає тому, що ви впевнені, і відповідає чомусь ви «повторно 40% впевнений , що це . Потім створіть модель, яка замість прогнозування класу або виводить бал від до виходячи з того, наскільки ви вважаєте його одним чи іншим (і порогову оцінку на основі, якщо її> або <1/2). Це перетворює вашу проблему класифікації в проблему регресії (яку ви порожите, щоб повернутися до класифікатора).1A0B0.6AAB01

Наприклад, ви можете встановити лінійну модель до як (де - визначеність вище). Потім, коли ви хочете перевірити деякі дані, підключіть їх до моделі та виведіть мітку якщо і іншому випадку.logp(A|x)p(B|x)=logp(A|x)1P(A|x)β0+β1Txp(A|x)Aβ0+β1Tx>0B


Отже, якщо у вас була проблема класифікації в багатьох класах, ви могли б встановити свої цілі як вектори, довжина яких дорівнює кількості класів?
гіпердо

Кількість класів -1, якщо припустимості становлять 100%; приклад подібний до логістичної регресії. Багато класифікаторів дають бали (наприклад, оцінки р (клас | дані) за деякою моделлю). У цьому відповіді пропонується, щоб замість того, щоб прогнозувати класи безпосередньо, переглядати визначеності як бали та передбачати їх. Потім зробіть щось із оцінками.
Бетмен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.