Чому рішення, що має найменший квадрат, дає в цьому випадку погані результати?


21

На сторінці 204, розділ 4, "Розпізнавання образів та машинне навчання" від Bishop є зображення, де я не розумію, чому рішення "Найменший квадрат" дає тут погані результати:

введіть тут опис зображення

У попередньому параграфі було сказано про те, що рішення з найменшими квадратами не мають надійності для людей, що випадають, як ви бачите на наступному зображенні, але я не розумію, що відбувається на іншому зображенні, і чому LS також дає слабкі результати.

введіть тут опис зображення


Схоже, це частина глави про дискримінацію між множинами. У вашій першій графіці пара ліворуч чітко не розрізняє три набори точок. Це відповідає на ваше запитання? Якщо ні, чи можете ви уточнити це?
Пітер Флом - Відновіть Моніку

@PeterFlom: Рішення LS дає погані результати для першого, я хочу знати причину. І так, це останній абзац розділу про класифікацію LS, де весь розділ стосується лінійних дискримінантних функцій.
Гігілі

Відповіді:


6

3

У ESL , рис. 4.2 на сторінці 105, явище називається маскуванням . Дивіться також ESL Малюнок 4.3. Рішення з найменшими квадратами призводить до прогнозування середнього класу, в якому переважно переважають предиктори для двох інших класів. LDA або логістична регресія не страждають від цієї проблеми. Можна сказати, що саме жорстка структура лінійної моделі ймовірностей класів (що по суті є тим, що ви отримуєте з найменших розмірів квадратів), є причиною маскування.

Редагувати: Маскування, мабуть, найбільш легко візуалізується для двовимірної проблеми, але це також проблема в одновимірному випадку, і тут математику зрозуміти особливо просто. Припустимо, що одновимірні вхідні змінні впорядковані як

x1<<xk<y1<ym<z1<<zn

xyz

110000TT001100000011xTx1xky1ymz1zn

Txxzy-клас, лінійна регресія повинна буде врівноважувати нулі для двох зовнішніх класів з класами середнього класу, що призводить до досить плоскої лінії регресії та особливо поганого прилягання ймовірностей умовного класу для цього класу. Як виявляється, максимум регресійних ліній для двох зовнішніх класів домінує над лінією регресії для середнього класу для більшості значень вхідної змінної, а середній клас маскується зовнішніми класами.

введіть тут опис зображення

k=m=n(x¯,1/3)

x¯=13k(x1++xk+y1++ym+z1++zn).
Hence, the three lines all intersect in the same point and the max of two of them dominates the third.

2

На основі зазначеної посиланню нижче, причини , чому Л.С. дискриминант не виконує добре в верхньому лівому графіку , є наступні:
-Відсутність стійкості до викидів.
- Певні набори даних, непридатні для класифікації найменших квадратів.
- Межа рішення відповідає розчину ML за умовного розподілу Гаусса. Але бінарні цільові значення мають розподіл далеко від гауссових.

Подивіться на сторінку 13 в « Недоліки найменших квадратів».


1

Я вважаю, що питання у вашій першій графіці називається "маскуванням", і воно згадується в "Елементи статистичного навчання: видобуток даних, умовиводи та прогнозування" (Хасті, Тібшірані, Фрідман. Спрингер, 2001), стор. 83-84.

Інтуїтивно (що найкраще, що я можу зробити) Я вважаю, що це тому, що прогнози регресії OLS не обмежені [0,1], тож ви можете закінчити прогноз -0,33, коли ви дійсно хочете більше, як 0 .. 1, який ви можете уточнити у випадку двох класів, але чим більше у вас класів, тим більше ймовірність виникнення цієї невідповідності. Я думаю.


1

Найменший квадрат чутливий до масштабу (оскільки нові дані різного масштабу, це буде перекосити межу прийняття рішення), як правило, потрібно або застосувати ваги (означає, що дані для введення в алгоритм оптимізації є однаковою шкалою) або виконати відповідну трансформацію (середній центр, журнал (1 + дані) ... тощо) про дані в таких випадках. Здається, що найменший квадрат буде працювати ідеально, якщо ви попросите його зробити 3 класифікаційні операції, в цьому випадку і злиття двох вихідних класів у підсумку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.