Чому саме завдяки класифікатору Bayes ми досягаємо найкращих показників, яких можна досягти? Яке формальне підтвердження / пояснення цьому?
Зазвичай вважається , що набір даних складається з iid зразків розподілу, який генерує ваші дані. Потім побудувати прогнозну модель з наведених даних: дан зразок х я , ви прогнозуєте клас п ( х я ) , в той час як реальний клас зразка е ( х я ) .Dнхiхif^( хi)f( хi)
Однак, в теорії, ви можете вирішити , щоб не вибрати одну конкретну модель ф обрана , а розглянемо всі можливі моделі е відразу і об'єднати їх як - то в один великий моделі F .f^вибралиf^Ж^
Звичайно, враховуючи дані, багато з менших моделей можуть бути досить неправдоподібними або недоречними (наприклад, моделі, які передбачають лише одне значення цілі, навіть якщо у вашому наборі даних D є кілька значень цілі ).
У будь-якому випадку потрібно передбачити цільове значення нових зразків, які виводяться з того ж розподілу, що і хi s. Хороший показник е про продуктивність вашої моделі буде
e(model)=P[f(X)=model(X)],
то є ймовірність того, що ви передбачити справжнє цільове значення для випадкової вибірки X .
Використовуючи формулу Байєса, можна обчислити, яка ймовірність того, що новий зразок х має цільове значення v , враховуючи дані D :
П( v ∣ D ) = ∑f^П( v ∣ f^) П( f^∣ Г ) .
Слід наголосити на цьому
- як правило , П( v ∣ f^) є або 0 або 1 , оскільки F є детермінованою функцією х ,f^х
- не звичайно, але майже весь час, що неможливо оцінити П( f^∣ D ) (за винятком вищезгаданих тривіальних випадків),
- не звичайно, але майже весь час, число можливих моделей F є занадто великим для верхньої суми , які будуть оцінені.f^
Отже, отримати / оцінити П( v ∣ D ) у більшості випадків дуже важко .
Тепер переходимо до класифікатора Optimal Bayes. При заданому х , вона пророкує значення
v = Argmax v Е ф P ( v | ф ) Р ( е | D ) .
Так як це найбільш ймовірне значення серед всіх можливих цільових значень V , класифікатор Оптимальне Байеса максимізує міру ефективності е ( ф ) .v^= аргмаксv∑f^П( v ∣ f^) П( f^∣ Г ) .
vе ( ф^)
Ми завжди використовуємо класифікатор Байєса як орієнтир для порівняння продуктивності всіх інших класифікаторів.
Ймовірно, ви використовуєте наївну версію класифікатора Байєса. Це легко здійснити, працює досить добре більшу частину часу, але обчислює лише наївну оцінку П( v ∣ D ) .