Якщо мені потрібна інтерпретаційна модель, чи існують інші методи, крім лінійної регресії?


18

Я зіткнувся з деякими статистиками, які ніколи не використовують для прогнозування інші моделі, окрім лінійної регресії, оскільки вони вважають, що "моделі ML", такі як випадкове збільшення лісу або градієнта, важко пояснити або "не інтерпретувати".

У лінійній регресії, враховуючи, що набір припущень перевірено (нормальність помилок, гомоскедастичність, відсутність мультиколінеарності), t-тести забезпечують спосіб перевірити значущість змінних, тести, які, наскільки мені відомо, недоступні випадкові ліси або моделі, що збільшують градієнт.

Отже, моє запитання полягає в тому, якщо я хочу моделювати залежну змінну з набором незалежних змінних, для інтерпретації чи слід завжди використовувати лінійну регресію?


6
Залежить від того, що ви все ще вважаєте лінійним. Узагальнені лінійні моделі та узагальнені моделі добавок все ще працюють на основі лінійної складової, що оцінюється, але можуть моделювати широкий спектр взаємозв'язків.
Франс Роденбург

2
Також залежить, що ви маєте на увазі під тлумачним. Для моделей машинного навчання були запропоновані різні способи "зазирнути в чорну скриньку", але вони можуть бути або не відповідати вашим цілям.
користувач20160

5
Я не зовсім бачу, що стосується інфекційної статистики та t-тестів, що стосуються інтерпретабельності, що, в основному, ІМО стосується оцінок коефіцієнтів.
Стефан Коласа

3
@StephanKolassa "Інтерретабельність" також може стосуватися форми функції . Наприклад, оцінки коефіцієнтів, отримані за допомогою алгоритмічної дробової поліноміальної кривої в регресійних моделях (чи то лінійна регресія, GLM чи щось інше), отримуючи при цьому гарне пристосування , майже напевно є антиінтуїтивно зрозумілими: чи можна зауважити про масив створених фігур за моделями форми , а отже інтерпретуйте залежність між та увазі ваші оцінки коефіцієнтів? уi=β0+β1хi-3/5+β2хi1/3+β3хi3+εiух
Олексій

2
@UserX Те, що ви описуєте, все ще лінійна регресія (тобто лінійна в параметрах). Контраст з : перша є лінійною регресійною моделлю, а остання не може бути оцінена за допомогою лінійної регресії. уi=β0+β1хi+β2хi2+εiуi=β0+β1хi+хiβ2+εi
Олексій

Відповіді:


29

Мені важко повірити, що ти чув, як люди це говорять, бо це було б дурною справою. Це як би сказати, що ви використовуєте тільки молоток (включаючи свердління отворів і для зміни лампочок), тому що це просто використовувати і дає передбачувані результати.

По-друге, лінійна регресія не завжди "інтерпретаційна". Якщо у вас є модель лінійної регресії з багатьма поліноміальними термінами або просто багато можливостей, це було б важко інтерпретувати. Наприклад, скажіть, що ви використовували необроблені значення кожного з 784 пікселів з MNIST † як функції. Чи знаєте ви, що піксель 237 має вагу, рівну -2311,67, скажіть що-небудь про модель? Для даних зображень, дивлячись на карти активації згорткової нейронної мережі, було б зрозуміти набагато простіше.

Нарешті, є моделі, які однаково інтерпретуються, наприклад, логістична регресія, дерева рішень, наївний алгоритм Байєса та багато іншого.

† - Як зауважив @Ingolifs у коментарі, і як це обговорювалося в цій темі , MNIST може бути не найкращим прикладом, оскільки це дуже простий набір даних. Для більшості реалістичних наборів зображень логістична регресія не працюватиме, а перегляд ваг не дав би прямої відповіді. Однак якщо придивитись уважніше до ваг у пов'язаній нитці, то їх інтерпретація також не є однозначною, наприклад, ваги для передбачення "5" або "9" не показують явного візерунка (див. Зображення нижче, скопійоване з іншого потоку ).


2
Відповідь на це питання я думаю , що робить хорошу роботу , показуючи , наскільки чітко можна пояснити логістичну регресію на MNIST.
Інголіфс

1
@Ingolifs згодні, але це карта активації, ви можете зробити те ж саме для нейромережі.
Тім

Незалежно від того, як це називається, воно дає чітке пояснення того, що використовує логістична регресія для прийняття своїх рішень таким чином, що ви насправді не отримуєте для карт активації нейронних мереж.
Інголіфс

1
@Ingolifs MNIST - це, мабуть, не найкращий приклад, тому що це дуже просто, але справа в тому, що ви б використовували той самий метод для нейронної мережі.
Тім

11

Дерево рішень було б іншим вибором. Або Регресія Лассо для створення розрідженої системи.

Перевірте цей показник із вступу до книги із статистичного навчання . http://www.sr-sv.com/wp-content/uploads/2015/09/STAT01.pngвведіть тут опис зображення


Що таке книга "ISL"?
донлан

1
@donlan amazon.com/… дякую за відповідь на пропозицію переглянути.
Haitao Du

без проблем! збирався подивитися його після прочитання цієї
теми

7

Я б зіткнувся з відповідями Тіма та mkt - ML-моделі не обов'язково інтерпретувати. Я хотів би направити вас на описовий пояснення навчання mAchine, пакет DALEX R, який присвячений тому, щоб зробити моделі ML інтерпретаційними.


1
Пакет DALEX дійсно дуже цікавий, чи знаєте ви, чи існує щось подібне для Python?
Віктор

@Victor Я не знаю версії Python DALEX, але ви можете спробувати зателефонувати на R з Python, використовуючи, наприклад, rpy2.readthedocs.io/en/version_2.8.x/introduction.html .
babelproofreader

6

Ні, це зайве обмеження. Існує великий діапазон інтерпретованих моделей, включаючи не лише (як каже Франс Роденбург) лінійні моделі, узагальнені лінійні моделі та узагальнені моделі добавок, а й методи машинного навчання, що використовуються для регресії. Я включаю випадкові ліси, машини, що підсилюють градієнт, нейронні мережі тощо. Тільки тому, що ви не отримуєте коефіцієнтів із моделей машинного навчання, подібних до лінійних регресій, не означає, що їх роботу неможливо зрозуміти. Просто потрібно трохи більше роботи.

Щоб зрозуміти чому, я рекомендую прочитати це питання: Отримання знань з випадкового лісу . Це показує, як ви можете підійти до того, щоб зробити практично будь-яку модель машинного навчання інтерпретаційною.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.