На жаль, різниця між цими напрямками значною мірою там, де їх навчають: статистика базується на математиці, а, машинному навчанні в галузі інформатики, а також більше застосовується майнінг даних (використовується бізнесом або маркетингом, розроблений програмними компаніями) .
По-перше, AI (хоча це може означати будь-яку інтелектуальну систему) традиційно має на увазі підходи, засновані на логіці (наприклад, експертні системи), а не статистичні оцінки. Статистика, заснована на математичній характеристиці, мала дуже хороше теоретичне розуміння разом із сильним прикладним досвідом експериментальних наук, де існує чітка наукова модель, і статистика потрібна для вирішення обмежених наявних експериментальних даних. Найчастіше увага приділялася видавленню максимальної інформації з дуже малих наборів даних. крім того, є упередження щодо математичних доказів: ви не будете опубліковані, якщо не зможете довести речі щодо свого підходу. Це, як правило, означає, що статистика відстає у використанні комп'ютерів для автоматизації аналізу. Знову ж таки, відсутність знань про програмування заважає статистикам працювати над масштабними проблемами, коли обчислювальні питання стають важливими (розглянемо графічні процесори та розподілені системи, такі як hadoop). Я вважаю, що такі сфери, як біоінформатика, зараз більше рухали статистику в цьому напрямку. Нарешті, я б сказав, що статистики є більш скептичним набором: вони не стверджують, що ви відкриваєте знання зі статистикою, швидше, вчений придумує гіпотезу, а завдання статистики - перевірити, чи гіпотеза підтримується даними. Машинне навчання викладається на кафедрах cs, які, на жаль, не викладають відповідної математики: багатовимірне обчислення, ймовірність, статистика та оптимізація не є звичайним явищем ... у них є невиразні «гламурні» поняття, такі як навчання з прикладів ...Елементи статистичного навчання сторінка 30. Це, як правило, означає, що теоретичне розуміння та вибух алгоритмів дуже мало, оскільки дослідники завжди можуть знайти якийсь набір даних, на якому їх алгоритм виявиться кращим. Тож існують величезні фази ажіотажу, коли дослідники ML переслідують наступну велику річ: нейронні мережі, глибоке навчання тощо. На жаль, у відділах CS є набагато більше грошей (думаю, Google, Microsoft разом із більш продаваною «навчальністю»), тому більш скептичні статистики ігноруються. Нарешті, є емпіричний вигин: в основному існує основна думка, що якщо ви кинете достатню кількість даних в алгоритм, він буде "вчитися" правильним прогнозам. Хоча я є упередженим щодо МЛ, існує принципове розуміння МЗ, яке статистики ігнорували: те, що комп'ютери можуть зробити революцію в застосуванні статистики.
Є два способи - а) автоматизація застосування стандартних тестів та моделей. Наприклад, працює акумулятор моделей (лінійна регресія, випадкові ліси тощо, пробуючи різні комбінації входів, налаштування параметрів тощо). Цього насправді не сталося, хоча я підозрюю, що конкуренти на кагл розробляють власні методи автоматизації. б) застосування стандартних статистичних моделей до величезних даних: подумайте, наприклад, перекладач google, системи рекомендацій тощо. Основні статистичні моделі прості, але існують величезні обчислювальні проблеми при застосуванні цих методів до мільярдів точок даних.
Виправлення даних є вершиною цієї філософії ... розробка автоматизованих способів отримання знань із даних. Однак він має більш практичний підхід: він по суті застосовується до поведінкових даних, де немає загальної наукової теорії (маркетинг, виявлення шахрайства, спам тощо), а мета - автоматизувати аналіз великих обсягів даних: без сумніву, а Команда статистиків могла б зробити кращі аналізи з урахуванням достатнього часу, але використовувати комп’ютер більш економічно. Крім того, як пояснює Д. Хенд, це аналіз вторинних даних - даних, які все-таки реєструються, а не даних, явно зібраних для відповіді на наукове запитання в обгрунтованій експериментальній конструкції. Статистика обміну даними та багато іншого, D Hand
Отже, я підсумував би те, що традиційний ШІ заснований на логіці, а не на статистиці, машинне навчання - це статистика без теорії, а статистика - «статистика без комп'ютерів», а обмін даними - це розробка автоматизованих інструментів для статистичного аналізу з мінімальним втручанням користувачів.