Що таке помилка Байєса в машинному навчанні?


15

http://www.deeplearningbook.org/contents/ml.html Сторінка 116 пояснює помилку Байєса, як показано нижче

Ідеальна модель - це оракул, який просто знає справжній розподіл ймовірностей, який генерує дані. Навіть така модель все-таки матиме певну помилку у багатьох проблемах, оскільки все ще може бути якийсь шум у розподілі. У випадку керованого навчання відображення від x до y може бути по суті стохастичним, або y може бути детермінованою функцією, яка включає інші змінні, крім тих, що включені в x. Помилка, що виникає через оракул, який робить передбачення з істинного розподілу p (x, y), називається помилкою Байєса.

Запитання

  1. Будь-ласка, поясніть помилку Байєса інтуїтивно?
  2. Чим вона відрізняється від невідмінної помилки?
  3. Чи можу я сказати загальну помилку = Зсув + Варіантність + Помилка Байєса?
  4. Що означає "y може бути по суті стохастичним"?

Відповіді:


23

Помилка Байєса - це найменша можлива помилка передбачення, яку можна досягти, і така ж, як невідправна помилка. Якщо хтось би точно знав, який процес генерує дані, то помилки все ж будуть робити, якщо процес є випадковим. Це також те, що мається на увазі під " по своїй суті стохастичним".y

Наприклад, перегортаючи справедливу монету, ми точно знаємо, який процес генерує результат (біноміальний розподіл). Однак, якби ми передбачили результат серії монетних зворотів, ми все-таки помилимося, оскільки процес по суті є випадковим (тобто стохастичним).

Щоб відповісти на ваше інше запитання, ви вірно стверджуєте, що загальна помилка - це сума (квадрату) зміщення, дисперсії та невідмінної помилки. Дивіться також цю статтю, щоб легко зрозуміти пояснення цих трьох понять.


-2

З https://www.cs.helsinki.fi/u/jkivinen/opetus/iml/2013/Bayes.pdf . Для завдання класифікації помилка байса визначається як:

minf=Cost(f)

Класифікатор Байєса визначається як: argminf=Cost(f)

Отже загальна помилка = помилка Байєса + наскільки ваша модель гірша за помилку Байєса Похибка + Варіантність + Помилка Байєса, яка може залежати від вашої моделі та притаманного характеру "шуму розподілу"

Що означає "y може бути по суті стохастичним"? Наприклад, . Але те, що ви збираєте як y, завжди забруднюється як , де Отже, у вас немає способу дізнатися справжній y, а оцінка вашої вартості - по суті забруднений. Навіть Oracle дає правильну відповідь, ви вважаєте, що вони помиляються.y=f(x)=sin(x)y~=y+ttN(0,σ2)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.