Прогнозована ефективність залежить більше від експертизи аналітика даних, ніж від методу?


14

Я натрапив на чутку, що деяке дослідження показало, що ефективність прогнозних моделей залежить більше від експертного досвіду аналітика даних щодо обраного методу, ніж від вибору методу.
Іншими словами, твердження полягає в тому, що важливіше, щоб аналітик даних був знайомий із обраним методом, ніж наскільки "відповідним" методом здасться проблема з більш теоретичної точки зору.

Про це згадувалося в контексті хіміометрії, яка зазвичай стосується проблем багатьох змінних (100-х - 1000-х), множинної колінеарності та, звичайно, замало зразків. Прогнозування може бути класифікацією чи регресією.

Мій особистий досвід говорить про те, що це правдоподібно , але було зазначено дослідження (я попросив людину, яка згадувала це електронною поштою після швидкого, але невдалого пошуку, але жодної відповіді не отримала). Однак, також при більш ретельному пошуку я не зміг відстежити жодних паперів.

Хтось знає про такі висновки? Якщо ні, що тут говорить про особистий досвід Big Guys?


1
Я більше маленький хлопець тут, але те, що я бачив у нейронних мережах, підтримує цю гіпотезу: далеко не те, що інструмент "поза коробкою", де "машина вчиться" чомусь, успішна класифікація чи прогнозування, здається, залежать від багато про те, наскільки розумна людина, яка розповідає мережі, як вчитися з даних - головне з точки зору попередньої обробки даних, а також з точки зору архітектури мережі тощо.
Стефан Коласа,

1
Я думаю, що це цифра 2.4 з "Елементів статистичного навчання", де вони порівнюють найближчих сусідів з методами типу регресії (і, звичайно, вони також дають кілька точок порівняння в книзі).
Стаск

@StasK: дякую за нагадування (сором мені за те, що не пам’ятаю). Вони також повідомляють, що на практиці PCR, PLS та регресія хребта дуже схожі, а також LDA та логістична регресія. Однак останні методи також дуже схожі з теоретичної точки зору.
cbeleites підтримує Моніку

Відповіді:


1

Власне, я чула чутку, що гідні навчальні машини, як правило, кращі, ніж експерти, тому що схильність людини полягає в мінімізації розбіжності за рахунок упередженості (негараздів), що призводить до поганої прогнозованої роботи в нових даних. Машина відкалібрована для мінімізації MSE, і, таким чином, має тенденцію до кращого прогнозу в новому наборі даних .


1
З мого досвіду, безумовно, правда, що люди, як правило, перевтомлюються. Однак, на мій досвід, вам також потрібен гідний експерт, який обирає не надто придатний навчальний апарат. Інакше хтось просто вибирає навчальну машину, яка переповнює.
cbeleites підтримує Моніку

1
MSE взагалі не захищає від надмірного оздоблення, якщо ви дуже не обмежите модель - і тут знову заходить експерт. Проте люди намагаються оптимізувати, наприклад, гіперпараметри моделі. Особливо ітеративні стратегії оптимізації переобладнають (MSE чи ні), якщо ви не можете дозволити собі абсолютно новий набір незалежних тестових даних для кожної ітерації. Можливо, варто сказати, що я родом із поля, де тестові випадки дуже рідкісні. І, в будь-якому випадку, ви можете стверджувати, що це не гідна навчальна машина.
cbeleites підтримує Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.