Багатоваріантна лінійна регресія проти нейронної мережі?


54

Здається, що можна отримати подібні результати до нейронної мережі з багатоваріантною лінійною регресією в деяких випадках, а багатоваріантна лінійна регресія - дуже швидка і проста.

За яких обставин нейронні мережі можуть дати кращі результати, ніж багатоваріантна лінійна регресія?

Відповіді:


28

Нейронні мережі в принципі можуть моделювати нелінійності автоматично (див. Теорему універсального наближення ), які вам потрібно буде чітко моделювати, використовуючи перетворення (сплайни тощо) в лінійній регресії.

Застереження: спокуса перевтомитися може бути (навіть) сильнішою в нейронних мережах, ніж при регресії, оскільки додавання прихованих шарів або нейронів виглядає нешкідливим. Тому будьте особливо уважні, щоб подивитися на ефективність прогнозування поза вибіркою.


Гаразд. Я думаю, що в моєму розумінні виникає запитання, в якій мірі я можу повторити подібну поведінку, доповнивши свої вхідні дані квадратичним і кубічним виразом?
Х'ю Перкінс

3
Насправді, ви можете, напевно, наблизити NN з відповідним чином трансформованими регресорами в лінійну регресію настільки тісно, ​​наскільки ви хочете (і навпаки). Хоча краща практика, ніж квадратика та кубіка, - це сплайни - я щиро рекомендую підручник Гаррелла "Стратегії моделювання регресії".
S. Kolassa - Відновити Моніку

Гаразд. Чи доцільно припускати, що час тренінгу буде швидшим для лінійної регресії на трансформованих даних, або час навчання буде приблизно подібним? Чи буде рішення для лінійної регресії на трансформованих даних мати єдиний глобальний максимум, чи матиме багато локального мінімуму, як для нейронних мереж? (Редагувати: я думаю, незалежно від того, як трансформуються входи, рішення лінійної регресії є лише псевдоінверсією проектної матриці, помноженої на щось-щось і тому завжди є унікальним чи єдиним?)
Х'ю Перкінс

2
Часи тренувань, звичайно, залежатимуть від вхідних розмірів (мало / багато спостережень, мало / багато прогнозів). Лінійна регресія включає одиночну (псевдо-) зворотну (так, унікальність / сингулярність навіть із трансформованими регресорами має місце), тоді як NN, як правило, тренуються ітераційним шляхом, але ітерації не включають інверсії матриць, тому кожна ітерація швидша - ти зазвичай припиніть навчання на основі якогось критерію, розробленого для того, щоб позбавити вас від переодягання.
S. Kolassa - Відновити Моніку

1
@Yamcha: моє розуміння теореми універсального наближення полягає в тому, що розмірність в принципі не має значення. (Звичайно, це асимптотичний результат. Я б очікував, що вам знадобиться жахливий обсяг даних, щоб NN була кращою, ніж тонко налаштована регрес полінома. Починає звучати як глибоке навчання ...)
С. Коласа - Відновлення Моніки

16

Ви згадуєте лінійну регресію. Це пов'язано з логістичною регресією , яка має аналогічний алгоритм швидкої оптимізації. Якщо у вас є межі на цільові значення, наприклад, з проблемою класифікації, ви можете розглядати логістичну регресію як узагальнення лінійної регресії.

Нейронні мережі суворо більш загальні, ніж логістична регресія на вихідних входах, оскільки це відповідає мережі пропускного рівня (з з'єднаннями, що безпосередньо з'єднують входи з виходами) з прихованими вузлами.0

Коли ви додаєте такі функції, як , це схоже на вибір ваг для кількох прихованих вузлів в одному прихованому шарі. Не існує точно відповідності, оскільки для моделювання такої функції, як з сигмоїдами, може знадобитися більше одного прихованого нейрона. Коли ви тренуєте нейронну мережу, ви дозволяєте їй знаходити власні приховані ваги, які можуть бути кращими. Це також може зайняти більше часу, і це може бути непослідовно. Ви можете почати з наближення до логістичної регресії з додатковими можливостями і повільно тренувати вхідні та приховані ваги, і це повинно бути краще, ніж логістична регресія з додатковими можливостями. Залежно від проблеми час навчання може бути незначним або непомірним.x311x3

Однією проміжною стратегією є вибір великої кількості випадкових вузлів, подібних до того, що відбувається при ініціалізації нейронної мережі, та фіксації ваг, введених у приховані. Оптимізація ваг * -до виходу залишається лінійною. Це називається екстремальною машиною навчання . Це працює як мінімум так само, як і оригінальна логістична регресія.


1
"Однією з проміжних стратегій є вибір великої кількості випадкових вузлів, подібних до того, що відбувається при ініціалізації нейронної мережі та фіксації ваг, прихованих до прихованих. Оптимізація через ваги * -до виводу залишається лінійною." => ви маєте на увазі, що в цьому випадку буде єдиний глобальний максимум для рішення?
Х'ю Перкінс

1
Для загального випадкового вибору випадкових прихованих вузлів, так.
Дуглас Заре

2
чудовий контекст постачання для [LR, LogR, NN, ELM]. Ваш коментар про те, що LogR є пропусковим шаром NN, здається очевидним після того, як було зазначено, але це добре уявлення.
javadba

3

Лінійна регресія має на меті розділити дані, лінійно відокремлювані, так, ви можете використовувати додаткові поліноми третього ступеня>, але таким чином ви знову вказали деякі припущення щодо даних, які ви маєте, оскільки визначаєте структуру цільової функції. У нейронній мережі. як правило, у вас є вхідний шар, який створює лінійні роздільники для даних, які ви маєте, і прихований рівень ТА, а також регіони, що поєднує деякі класи та останній рівень АБО всі ці регіони. Таким чином, усі ваші дані можуть бути класифіковані нелінійним способом, також всі ці процеси проходять із внутрішньо вивченими вагами та визначеними функціями. Крім того, збільшення числа функцій для лінійної регресії протистоїть "Прокляття розмірності". Крім того, деякі програми потребують більше ймовірнісних результатів, ніж постійні числа як вихід.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.