Чи важливо статистикам вивчити машинне навчання?


22

Чи машинне навчання є важливим предметом для ознайомлення з будь-яким статистиком? Здається, машинне навчання - це статистика. Чому програми статистики (для студентів та аспірантів) не вимагають машинного навчання?



2
Не знаю, але я впевнений, що кожен, хто займається машинним навчанням, повинен вивчати статистику.
Дейв

Відповіді:


18

Машинне навчання - це спеціалізована сфера прикладної статистики з високими розмірами. Він також потребує значної програми програмування, яка не потрібна для хорошої кількісної програми, особливо на рівні бакалаврату, але певною мірою і на рівні випускників. Він застосовується лише до аспекту прогнозування статистики, тоді як математична статистика, а також інфекційна та описова прикладна статистика потребують уваги. Багато програм пропонують студентам сильно вплинути на машинне навчання (наприклад, КМУ), але промислові статистики в цілому рідко отримують шанс застосувати ці інструменти, забороняючи певні високотехнологічні робочі місця.

У той час як я недавно бачив багато вчених даних і машинного навчання позиції на ринку праці, я думаю , що загальний опис роботи в «статистами» не вимагає машинного навчання фону, але це вимагає бездоганного розуміння основних статистичних даних, виведення і зв'язку: вони справді повинні бути ядром програми статистики випускників. Машинне навчання та наука даних також є відносно новими як посади та дисципліни. Тим, хто шукає роботу в якості статистиків, було б недобросовісно, ​​щоб спрямувати свої стратегії вирішення проблем у напрямку машинного навчання, якщо це в основному занедбане в бізнесі / фармації / підприємстві з біологічних наук для підвищення ефективності через 10 або 20 років.

Нарешті, я не відчуваю, що машинне навчання надзвичайно покращує чітке розуміння статистики. Статистика в основному є міждисциплінарною сферою, і важливо спілкуватися та переконувати нетехнічних експертів у вашій галузі (наприклад, лікарів, фінансових директорів чи адміністраторів) саме тому, що ви обрали вибрану методологію. Машинне навчання - це така ніша, високотехнологічна галузь, яка, у багатьох прикладних практиках, обіцяє лише кращі показники роботи, ніж стандартні інструменти та методи. Багато методів у навчанні під наглядом та без нагляду сприймаються неекспертами (і навіть деякими менш підготовленими експертами) як "чорна скринька". На запитання, щоб захистити свій вибір конкретного методу навчання, є пояснення, які не відповідають умовам жодної із застосованих проблемних обставин.


1
Не могли б ви пояснити трохи детальніше, що саме ви маєте на увазі, коли пояснення випадають (можливі приклади?)?
cbeleites підтримує Моніку

10
Я не можу описати відмінності між лінійним дискримінантним аналізом, підтримуючими векторними апаратами та GLM LASSO таким чином, щоб мати сенс для лікаря. Тому я створив логістичну регресійну модель для прогнозування ризику раку молочної залози, використовуючи кілька ретельно відрегульованих коваріатів. Коли їх презентували, лікарі одразу розпочали просвітливу дискусію щодо їх розмірів. Дискримінація моєї "наукової" моделі була дуже порівнянна з більш досконалими методами ML (перекриття 90% ІС для AUC на основі завантажувального зразка у валідаційній вибірці), і я не єдиний, хто має такий звіт про справу!
AdamO

4
@cbeleites, чи вам коли-небудь доводилося спілкуватися зі знаючою людиною з кращим рівнем математичних знань з коледжу? SVM не дає розмірів ефекту в термінах, які зрозуміли б лікарі; ширина поля не має для них сенсу, на відміну від непарних співвідношень, до яких вони дуже звикли. Якщо ви не можете розмовляти мовою клієнта, вони не витратять на вас свій час і гроші.
Стаск

2
@GraemeWalsh фантастична точка. Я дуже бореться з концепцією використання складних прогнозних моделей для прогнозованого висновку, як це часто буває при моделюванні структурних рівнянь або однойменній причинності Грейнджера. Я думаю, що в цій галузі ще належить зробити багато роботи. Наприклад, інтуїтивно я визнаю велику схожість між напівпараметричним моделюванням та граничними структурними моделями, але не знаю, де лежать відмінності.
AdamO

2
@Jase, ви можете подивитися запрошений документ від переможців конкурсу Netflix. Їх доповіді були дуже схожими, навіть якщо байєсівська модель, що порівнювала біг заднього ваги на великому просторі моделей, вони помітили, що Pca, здавалося, має домінуючу задню вагу в будь-яких умовах. Це не означає, що вони еквівалентні, але є спроба між простотою та точністю, що змушує мене віддавати перевагу більш простим моделям, ніж ті, що пропонує Арена ml. Можна аналогічно думати, як складні параметричні моделі діють аналогічно непараметричним.
АдамО

14

Гаразд, давайте поговоримо про слон статистики із зав'язаними очима того, що ми дізналися від одного-двох людей, з якими ми тісно співпрацювали в наших програмах ...

Програми Stat вимагають того, що вони вважають за потрібне, тобто те, що є найважливішим, що вони хочуть, щоб їх студенти вивчали з огляду на обмежену кількість часу, яку студенти матимуть на програму. Вимагати однієї вузької області означає поцілуватись на прощання з деякими іншими областями, які можна стверджувати, що не менш важливо. Деякі програми вимагають вимірювати теоретичну ймовірність, деякі - ні. Деякі вимагають іноземної мови, але більшість програм цього не робить. Деякі програми сприймають байєсівську парадигму як єдине, що варто вивчити, але більшість - ні. Деякі програми знають, що найбільший попит на статистиків - це статистика опитування (принаймні, так це в США), але більшість - ні. Програми Біостату слідкують за грошима та навчають SAS + методам, які легко продаватимуть медичним та фармакологічним наукам.

Для людини, яка розробляє сільськогосподарські експерименти, або збирає дані опитувань за допомогою телефонних опитувань, або перевіряє психометричні шкали, або виготовляє карти захворюваності на ГІС, машинне навчання - це абстрактне мистецтво інформатики, дуже віддалене від статистики, з якою вони працюють щодня основа. Ніхто з цих людей не побачить жодної негайної користі від навчання векторних машин підтримки або випадкових лісів.

Загалом, машинне навчання є гарним доповненням до інших областей статистики, але я заперечую, що основні речі, такі як багатоваріантний нормальний розподіл та узагальнені лінійні моделі, повинні стати на перше місце.


5

Машинне навчання - це отримання знань / навчання з даних. Наприклад, я працюю з алгоритмами машинного навчання, які можуть відібрати декілька генів, які можуть бути причетні до певного типу захворювання за даними Microarray ДНК (наприклад, рак або діабет). Потім вчені можуть використовувати ці гени (вивчені моделі) для ранньої діагностики в майбутньому (класифікація невидимих ​​зразків).

Є багато статистики, яка бере участь у машинному навчанні, але є галузі машинного навчання, які не потребують статистики (наприклад, генетичне програмування). Єдиний раз, коли вам знадобиться статистика в цих примірниках, буде перевірити, чи модель, яку ви побудували за допомогою машинного навчання, статистично суттєво відрізняється від якоїсь іншої моделі.

На мою думку, вступ до машинного навчання для статистиків було б вигідним . Це допоможе статистикам побачити реальні сценарії застосування статистики. Однак це не повинно бути обов'язковим . Ви можете стати успішним статистиком і провести все своє життя, не коли-небудь підходити до машинного навчання!


2
Я б сказав, що вам потрібна статистика щоразу, коли ви повідомляєте про роботу своєї моделі. Мабе, це тому, що моя професія - аналітична хімія, де одне з важливих правил - "число без довірчого інтервалу - не результат".
cbeleites підтримує Моніку

1
@cbeleites Я згоден з вами. Я мав на увазі те, що статистикам не обов’язково бути фахівцями з машинного навчання! Їх можна дістати, не вивчивши машинного навчання :)
відкликання

1
@cbeleites або декілька довірчих інтервалів для мультимодальних есіматорів (наприклад, Аналіз даних Sivia & Skilling ).
alancalvitti
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.