Яка різниця між обробкою даних, статистикою, машинним навчанням та ШІ?


208

Яка різниця між обробкою даних, статистикою, машинним навчанням та ШІ?

Чи було б точно сказати, що це 4 поля, які намагаються вирішити дуже схожі проблеми, але з різними підходами? Що саме вони мають спільне і чим вони відрізняються? Якщо між ними існує якась ієрархія, що це було б?

Подібні запитання задавались раніше, але я все ще не розумію:

Відповіді:


109

Серед них є значне перекриття, але можна зробити деякі відмінності. З необхідності, мені доведеться надто спростити деякі речі або дати короткий скорочення іншим, але я зроблю все можливе, щоб визначити ці сфери.

По-перше, штучний інтелект досить відрізняється від решти. AI - це вивчення способів створення інтелектуальних агентів. На практиці це те, як запрограмувати комп’ютер на те, щоб він поводився та виконував завдання, як розумний агент (скажімо, людина). Це зовсім не повинно включати навчання чи спонукання, це може бути просто способом «побудувати кращу мишоловку». Наприклад, програми AI включають програми для моніторингу та контролю поточних процесів (наприклад, збільшуйте аспект A, якщо він здається занадто низьким). Зауважте, що AI може включати майже все, що робить машина, доки вона не робить це "нерозумно".

На практиці, однак, більшість завдань, які потребують інтелекту, вимагають здатності викликати нові знання з досвіду. Таким чином, велика площа в межах ШІ - це машинне навчання . Кажуть, що комп’ютерна програма вивчає певне завдання з досвіду, якщо його ефективність із завданням покращується з досвідом, згідно з деяким показником ефективності. Машинне навчання передбачає вивчення алгоритмів, які можуть витягувати інформацію автоматично (тобто без он-лайн керівництва). Це, звичайно , буває , що деякі з цих процедур включають ідеї , отримані безпосередньо з або натхнених, класичної статистики, але вони не маютьбути. Як і у ШІ, машинне навчання дуже широке і може включати майже все, доки є якийсь індуктивний компонент. Прикладом алгоритму машинного навчання може бути фільтр Кальмана.

Обмін даними - це область, яка багато чого надихає та використовує в машинному навчанні (а деякі, також, зі статистики), але поставлена ​​для різних цілей . Обмін даними здійснюється людиною у конкретній ситуації на певному наборі даних, маючи на увазі мету. Зазвичай ця людина хоче використовувати силу різних методик розпізнавання образів, розроблених в машинному навчанні. Досить часто набір даних є масивним , складним та / або може мати особливі проблеми(наприклад, існує більше змінних, ніж спостережень). Зазвичай мета - або виявити / генерувати деякі попередні уявлення про область, де раніше заздалегідь було мало відомостей, або вміти точно прогнозувати майбутні спостереження. Більше того, процедури видобутку даних можуть бути або «без нагляду» (ми не знаємо відповіді - відкриття), або «під наглядом» (ми знаємо відповідь - прогнозування). Зауважте, що мета, як правило, не розвивати більш складне розуміння основоположного процесу генерації даних. Загальні методи обміну даними включатимуть аналіз кластерів, дерева класифікації та регресії та нейронні мережі.

Я думаю, мені не потрібно багато говорити, щоб пояснити, що є статистикою на цьому сайті, але, можливо, я можу сказати кілька речей. Класична статистика (тут я маю на увазі і частістську, і байєсівську) - це підтема математики. Я вважаю це великою мірою перетином того, що ми знаємо про ймовірність і що ми знаємо про оптимізацію. Хоча математичну статистику можна вивчити як просто платонічний об’єкт дослідження, вона здебільшого розуміється як більш практична і застосована за характером, ніж інші, більш розріджені області математики. Як такий (і особливо на відміну від видобутку даних вище), він в основному використовується для кращого розуміння певного конкретного процесу генерації даних. Таким чином, це зазвичай починається з формально заданої моделі, і з цього випливають процедури, щоб точно витягти цю модель з галасливих екземплярів (тобто, оцінка - оптимізуючи деяку функцію втрат) та бути в змозі відрізнити її від інших можливостей (тобто, умовиводів, заснованих на відомих властивостях розподілу вибірки). Прототиповою статистичною технікою є регресія.


1
Я згоден з більшістю посту, але я б сказав, що AI більшість часу намагаються не створювати інтелектуальних агентів (що таке інтелект?), А раціональних агентів. Під раціональним розуміється "оптимальний з урахуванням наявних знань про світ". Хоча, безумовно, кінцева мета - це щось на зразок загального вирішення проблеми.
kutschkem

3
Вибачте, я все ще не знаходжу різниці між обробкою даних та машинним навчанням. з того, що я бачу, обмін даними = непідвладне навчання машинному навчанню. чи не машинне навчання без нагляду щодо виявлення нових розумінь?
dtc

Анонімний користувач запропонував цей поштовий блог для таблиці, що розбиває відмінності між обробкою даних та машинним навчанням на основі параметрів.
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.Чи можна з впевненістю сказати, що нейронна мережа є прикладом інструмента машинного навчання, використовуваного при обробці даних, порівняно з кластерним аналізом, який є алгоритмом, не розробленим для машинного навчання, що використовується для обміну даними?
t0mgs

Насправді це все досить нечітко, @ TomGranot-Scalosub. Я б сказав, що нейронні мережі, безумовно, є ML, і, безумовно, кластерний аналіз та CART вивчаються дослідниками ML. Я намагаюся зробити ідеї дещо чіткішими та виразнішими, але насправді немає яскравої лінії між цими категоріями.
gung

41

Багато інших відповідей висвітлювали основні моменти, але ви попросили ієрархію, якщо така є, і те, як я це бачу, хоча вони є кожною дисципліною самі по собі, є ієрархія, про яку, здається, ніхто ще не згадував, оскільки кожен будується на попередній.

Статистика стосується лише чисельності та кількісного визначення даних. Існує багато інструментів для пошуку відповідних властивостей даних, але це досить близько до чистої математики.

Data Mining - це використання статистики , а також інших методів програмування для пошуку шаблонів, прихованих у даних, щоб ви могли пояснити якесь явище. Data Mining створює інтуїцію щодо того, що насправді відбувається в деяких даних, і все ще мало спрямований на математику, ніж програмування, але використовує і те, і інше.

Машинне навчання використовує методи майнінгу даних та інші алгоритми навчання для побудови моделей того, що відбувається за деякими даними, щоб воно могло передбачити майбутні результати. Математика є основою для багатьох алгоритмів, але це більше спрямоване на програмування.

Штучний інтелект використовує моделі, побудовані за допомогою машинного навчання та інші способи розмірковувати про світ і породжувати інтелектуальну поведінку, чи це гра, чи керування роботом / машиною. Штучний інтелект має певну мету досягти, передбачивши, як дії впливатимуть на модель світу, і вибирає дії, які найкраще досягнуть цієї мети. На основі програмування.

Коротко

  • Статистика кількісно визначає числа
  • Data Mining пояснює закономірності
  • Машинне навчання прогнозує за допомогою моделей
  • Штучний інтелект поводиться і міркує

Тепер, про це говорять, будуть деякі проблеми з AI, які потрапляють тільки в AI і аналогічно для інших сфер, але більшість цікавих проблем сьогодні (наприклад, самостійне керування автомобілями) можна було б легко і правильно назвати всіма цими. Сподіваємось, це ліквідує відносини між ними, про яких ви запитали.


Ви коли-небудь використовували WEKA чи RapidMiner? Наприклад, ЕМ знаходиться в межах обміну даними, і вона застосовує модель. Окрім цього, ознайомтесь із визначенням, яке надає mariana soffer, і порівняйте його зі своєю відповіддю. Пару років тому я читав Бішопа і Рассела / Норвіга, але наскільки я пам’ятаю деф. від mariana soffer більше підходить. Видобуток даних btw є ("лише") головним кроком до відкриття знань. обмін даними є лише захопленням даних - і подальшим для інформації - при використанні алгоритму з відповідними параметрами. обмін даними не може пояснити закономірності.
мнемонічний

Ні, @mnemonic, це визначення AI набагато більше відповідає Расселу та Норвігу, ніж маріанське, яке досить датоване
nealmcb

2
Я думаю, що опис статистики є поганим; кількісне визначення чисел - це статистика, про яку повідомляє національне управління статистики, але це не те саме, що статистична наука, яка створює моделі для даних, оцінює їх параметри та робить висновки. Також взаємозв'язок між обробкою даних та машинним навчанням перевернуто; наука даних використовує методи машинного навчання, а не навпаки. Дивіться також відповідь Кена ван Харена.
Річард Харді

25
  • Статистика стосується ймовірнісних моделей, зокрема, висновку про ці моделі з використанням даних.
  • Машинне навчання пов'язане з прогнозуванням конкретного результату за деякими даними. Практично будь-який розумний метод машинного навчання може бути сформульований як формальна імовірнісна модель, тому в цьому сенсі машинне навчання дуже схоже на статистику, але воно відрізняється тим, що його взагалі не цікавлять оцінки параметрів (просто прогнозування), і він фокусується про ефективність обчислень та великі набори даних.
  • Data Mining - це (наскільки я розумію) застосоване машинне навчання. Він більше зосереджується на практичних аспектах розгортання алгоритмів машинного навчання на великих наборах даних. Це дуже схоже на машинне навчання.
  • Штучний інтелект - це все, що стосується (деякого довільного визначення) інтелекту в комп'ютерах. Отже, вона включає багато речей.

В цілому, ймовірнісні моделі (і, отже, статистика) виявились найефективнішим способом формально структурувати знання та розуміння в машині, настільки, що всі три інші (AI, ML та DM) сьогодні є переважно підполями статистика. Не перша дисципліна, що стала тіньовою рукою статистики ... (Економіка, психологія, біоінформатика тощо)


5
@Ken - Неправильно було б охарактеризувати економічну психологію чи AI як тіньову зброю статистики - навіть якщо статистика використовується в межах кожної з них, щоб проаналізувати багато проблем, які цікавлять ці галузі. статистики, навіть якщо більшість медичних висновків значною мірою спираються на аналіз даних.
mpacer

@Ken - це чудова відповідь, але ви можете більш повно описати, з чого складаються інші речі, з яких AI. Наприклад, історично AI також включав великі обсяги аналізу неімовірнісних моделей (наприклад, виробничі системи, стільникові автомати та ін., Наприклад, див. Newell & Simon 1972). Звичайно, всі подібні моделі є обмежуючими випадками певної імовірнісної моделі, але вони не аналізувалися в такій формі, як набагато пізніше.
mpacer

4
обмін даними виходить за межі машинного навчання, оскільки він насправді передбачає, як дані зберігаються та індексуються, щоб зробити алгоритми набагато швидшими. Це можна охарактеризувати як використання методів, здебільшого з ІІ, МС та статистики, та поєднання їх з ефективним та розумним методом управління даними та компонуванням даних. Якщо це не передбачає управління даними, ви можете часто називати це "машинним навчанням". Однак є деякі завдання, зокрема "без нагляду", де немає "навчання", а також управління даними, вони все ще називаються "обмін даними" (кластеризація, виявлення зовнішньої форми).
Аноні-Мус

21

Можна сказати, що вони всі споріднені, але всі вони різні речі. Хоча серед вас можуть бути спільні речі, наприклад, у статистиці та обробці даних, ви використовуєте методи кластеризації.
Дозвольте спробувати коротко визначити кожного:

  • Статистика - це дуже стара дисципліна, в основному заснована на класичних математичних методах, які можуть бути використані з тією ж метою, що інколи обмін даними, це класифікація та групування речей.

  • Обмін даними складається з побудови моделей з метою виявлення закономірностей, які дозволяють нам класифікувати або передбачати ситуації за даними кількості фактів чи факторів.

  • Штучний інтелект (перевірити Марвіна Міньського *) - це дисципліна, яка намагається наслідувати, як працює мозок методами програмування, наприклад, будуючи програму, яка грає в шахи.

  • Машинне навчання - це завдання будувати знання та зберігати його в якійсь формі в комп’ютері; ця форма може бути з математичних моделей, алгоритмів тощо ... Все, що може допомогти виявити шаблони.


2
Ні, більшість сучасних ШІ не дотримуються цього раннього підходу "емуляції мозку". Вона зосереджена на створенні "раціональних агентів", які діють в середовищі для максимальної корисності, і тісніше пов'язані з машинним навчанням. Дивіться книгу Рассела та Норвіга.
nealmcb

1
Я не бачу різниці між ML та видобутком даних у вашому визначенні
Мартін Тома

16

Я найбільше знайомий з машинним навчанням - віссю обміну даними - тому я сконцентруюся на цьому:

Машинне навчання, як правило, цікавить висновки в нестандартних ситуаціях, наприклад, про неідентичні дані, активне навчання, напівконтрольне навчання, навчання зі структурованими даними (наприклад, рядки або графіки). ML також схильний цікавитися теоретичними межами того, що можна вивчити, що часто є основою для використовуваних алгоритмів (наприклад, машина, що підтримує вектор). ML має тенденцію до байєсівського характеру.

Дані даних зацікавлені в пошуку шаблонів даних, про які ви ще не знаєте. Я не впевнений, що він суттєво відрізняється від дослідницького аналізу даних у статистиці, тоді як у машинному навчанні зазвичай існує більш чітко визначена проблема.

ML, як правило, більше цікавлять невеликі набори даних, де проблема надмірного розміщення є проблемою, а видобуток даних, як правило, зацікавлений у масштабних наборах даних, де проблема стосується кількості даних.

Статистика та машинне навчання дає багато основних інструментів, які використовуються майстрами даних.


Я не згоден з тим, що "ML прагне більше зацікавитись невеликими наборами даних".
Мартін Тома

обмін даними стає набагато складніше при малих наборах даних, оскільки це збільшує шанс знайти помилкову асоціацію (і збільшує труднощі їх виявлення). З невеликими висновками наборів даних, які роблять якнайменший вибір, як правило, набагато безпечніше.
Дікран Марсупіал

13

Ось мій погляд на це. Почнемо з двох дуже широких категорій:

  • все, що навіть просто прикидається розумним, - це штучний інтелект (включаючи ML та DM).
  • все, що узагальнює дані, - це статистика , хоча ви зазвичай застосовуєте це лише до методів, які звертають увагу на обґрунтованість результатів (часто використовуються в ML та DM)

І МЛ, і ДМ, як правило, обидва, AI і статистика, оскільки вони зазвичай включають основні методи з обох. Ось деякі з відмінностей:

  • у машинному навчанні у вас чітко визначена мета (зазвичай прогнозування )
  • у пошуку даних у вас по суті є мета " щось, чого я раніше не знав "

Крім того, обробка даних зазвичай передбачає набагато більше управління даними , тобто як організувати дані в ефективних структурах індексів та баз даних.

На жаль, їх не так просто розділити. Наприклад, існує "непідконтрольне навчання", яке часто більше пов'язане з DM, ніж з ML, оскільки воно не може оптимізувати досягнення мети. З іншого боку, методи DM важко оцінити (як ви оцінюєте щось, чого не знаєте?) І часто оцінюються за тими ж завданнями, що і машинне навчання, залишаючи деяку інформацію. Однак це, як правило, змушує їх працювати гірше, ніж методи машинного навчання, які можуть оптимізуватись до реальної мети оцінювання.

Крім того, вони часто використовуються в комбінаціях. Наприклад, метод попередньої обробки даних (скажімо, кластеризація або непідконтрольне виявлення зовнішнього середовища) використовується для попередньої обробки даних, тоді метод машинного навчання застосовується до попередньо оброблених даних для підготовки кращих класифікаторів.

Машинне навчання, як правило, набагато простіше оцінити: є така мета, як оцінка або прогнозування класу. Ви можете обчислити точність і згадати. При обробці даних більшість оцінок проводиться, вилучаючи деяку інформацію (наприклад, мітки класів), а потім перевіряючи, чи виявив ваш метод однакову структуру. Це наївно в тому сенсі, як ви припускаєте, що мітки класів повністю кодують структуру даних; ви насправді караєте алгоритм пошуку даних, який виявляє щось нове у ваших даних. Інший спосіб - опосередковано - оцінювати її, полягає в тому, як виявлена ​​структура покращує ефективність власне алгоритму ML (наприклад, при розподілі даних або видаленні залишків). Тим не менш, ця оцінка заснована на відтворенні існуючих результатів, що насправді не є метою пошуку даних ...


1
Ваша відповідь дуже проникливий. Я особливо вдячний останньому абзацу, щодо відмінностей в оцінці ефективності ML та оцінці результатів роботи DM.
justis

8

Я додам кілька спостережень до сказаного ...

AI - це дуже широкий термін для всього, що має відношення до машин, що займаються діями, що нагадують міркування або почуття розуму, починаючи від планування завдання або співпраці з іншими особами, до навчання керувати кінцівками ходити. Дефіцитне визначення полягає в тому, що AI - це все, що пов'язано з комп'ютером, що ми ще не знаємо, як зробити це добре. (Як тільки ми знаємо, як це зробити добре, він, як правило, отримує свою назву і більше не є "AI".)

Моє враження, всупереч Вікіпедії, що розпізнавання візерунків та машинне навчання - це одне і те ж поле, але перше практикують люди з інформатики, а друге - статистики та інженери. (Багато технічних полів відкриваються знов і знов різними підгрупами, які часто вносять до столу своє власне мовлення та розум.)

У моєму розумінні Data Mining вимагає машинного навчання / розпізнавання образів (методи, що працюють з даними) і запускає їх у базу даних, інфраструктуру та методи перевірки / очищення даних.


6
Машинне навчання та розпізнавання образів - це не одне і те ж, машинне навчання також цікавлять такі речі, як регресія та причинно-наслідкові умови тощо. Розпізнавання образів є лише однією з проблем, що цікавлять машинне навчання. Більшість людей, яких я знаю машинного навчання, знаходяться у відділах інформатики.
Дікран Марсупіал

2
@Dikran Погоджуюся, але ML та PR часто псевдонімізовані та представлені під подібними темами аналізу даних. Моя улюблена книга - це дійсно розпізнавання образів та машинне навчання від Christophe M Bishop. Ось огляд Джона Майндональда в JSS, j.mp/etg3w1 .
chl

Я також вважаю, що слово "машинне навчання" набагато частіше, ніж "розпізнавання візерунків" у світі CS.
bayerj

Також тут відчуваємо, що ML - це більше термін CS.
Карл Моррісон

3

На жаль, різниця між цими напрямками значною мірою там, де їх навчають: статистика базується на математиці, а, машинному навчанні в галузі інформатики, а також більше застосовується майнінг даних (використовується бізнесом або маркетингом, розроблений програмними компаніями) .

По-перше, AI (хоча це може означати будь-яку інтелектуальну систему) традиційно має на увазі підходи, засновані на логіці (наприклад, експертні системи), а не статистичні оцінки. Статистика, заснована на математичній характеристиці, мала дуже хороше теоретичне розуміння разом із сильним прикладним досвідом експериментальних наук, де існує чітка наукова модель, і статистика потрібна для вирішення обмежених наявних експериментальних даних. Найчастіше увага приділялася видавленню максимальної інформації з дуже малих наборів даних. крім того, є упередження щодо математичних доказів: ви не будете опубліковані, якщо не зможете довести речі щодо свого підходу. Це, як правило, означає, що статистика відстає у використанні комп'ютерів для автоматизації аналізу. Знову ж таки, відсутність знань про програмування заважає статистикам працювати над масштабними проблемами, коли обчислювальні питання стають важливими (розглянемо графічні процесори та розподілені системи, такі як hadoop). Я вважаю, що такі сфери, як біоінформатика, зараз більше рухали статистику в цьому напрямку. Нарешті, я б сказав, що статистики є більш скептичним набором: вони не стверджують, що ви відкриваєте знання зі статистикою, швидше, вчений придумує гіпотезу, а завдання статистики - перевірити, чи гіпотеза підтримується даними. Машинне навчання викладається на кафедрах cs, які, на жаль, не викладають відповідної математики: багатовимірне обчислення, ймовірність, статистика та оптимізація не є звичайним явищем ... у них є невиразні «гламурні» поняття, такі як навчання з прикладів ...Елементи статистичного навчання сторінка 30. Це, як правило, означає, що теоретичне розуміння та вибух алгоритмів дуже мало, оскільки дослідники завжди можуть знайти якийсь набір даних, на якому їх алгоритм виявиться кращим. Тож існують величезні фази ажіотажу, коли дослідники ML переслідують наступну велику річ: нейронні мережі, глибоке навчання тощо. На жаль, у відділах CS є набагато більше грошей (думаю, Google, Microsoft разом із більш продаваною «навчальністю»), тому більш скептичні статистики ігноруються. Нарешті, є емпіричний вигин: в основному існує основна думка, що якщо ви кинете достатню кількість даних в алгоритм, він буде "вчитися" правильним прогнозам. Хоча я є упередженим щодо МЛ, існує принципове розуміння МЗ, яке статистики ігнорували: те, що комп'ютери можуть зробити революцію в застосуванні статистики.

Є два способи - а) автоматизація застосування стандартних тестів та моделей. Наприклад, працює акумулятор моделей (лінійна регресія, випадкові ліси тощо, пробуючи різні комбінації входів, налаштування параметрів тощо). Цього насправді не сталося, хоча я підозрюю, що конкуренти на кагл розробляють власні методи автоматизації. б) застосування стандартних статистичних моделей до величезних даних: подумайте, наприклад, перекладач google, системи рекомендацій тощо. Основні статистичні моделі прості, але існують величезні обчислювальні проблеми при застосуванні цих методів до мільярдів точок даних.

Виправлення даних є вершиною цієї філософії ... розробка автоматизованих способів отримання знань із даних. Однак він має більш практичний підхід: він по суті застосовується до поведінкових даних, де немає загальної наукової теорії (маркетинг, виявлення шахрайства, спам тощо), а мета - автоматизувати аналіз великих обсягів даних: без сумніву, а Команда статистиків могла б зробити кращі аналізи з урахуванням достатнього часу, але використовувати комп’ютер більш економічно. Крім того, як пояснює Д. Хенд, це аналіз вторинних даних - даних, які все-таки реєструються, а не даних, явно зібраних для відповіді на наукове запитання в обгрунтованій експериментальній конструкції. Статистика обміну даними та багато іншого, D Hand

Отже, я підсумував би те, що традиційний ШІ заснований на логіці, а не на статистиці, машинне навчання - це статистика без теорії, а статистика - «статистика без комп'ютерів», а обмін даними - це розробка автоматизованих інструментів для статистичного аналізу з мінімальним втручанням користувачів.


Ця відповідь дуже хитається, тому її важко дотримуватися і вона надмірно довга, але вона дійсно вражає те, що відмінності мають більше спільного з дисциплінарними традиціями та акцентами, ніж будь-що інше.
Tripartio

1

Дані даних - це виявлення прихованих зразків або невідомих знань, які можуть бути використані людьми для прийняття рішень.

Машинне навчання - це вивчення моделі класифікації нових об'єктів.


Чи машинне навчання тільки класифікації? Не можна машинне навчання використовувати для досягнення інших цілей?
gung

@gung Абсолютно ні. Підсилення навчання є, IMHO, найбільш характерним для підполя ML, і я б не сказав, що воно засноване на класифікації, а на досягненні цілей.
nbro

@nbro, цей коментар повинен був стати натяком на тему, щоб переглядати, наскільки вузько вони визначають ML.
gung

0

На мою думку, Штучний інтелект можна розглядати як "супернабір" таких галузей, як машинне навчання, обмін даними, розпізнавання образів тощо.

  • Статистика - це поле математики, яке включає всі математичні моделі, методи та теореми, які використовуються в ШІ.

  • Машинне навчання - це поле AI, яке включає всі алгоритми, що застосовують вищезазначені статистичні моделі та мають сенс для даних, тобто прогностичної аналітики, таких як кластеризація та класифікація.

  • Майнінг даних - це наука, яка використовує всі вищезазначені методи (головним чином машинне навчання) для отримання корисних та важливих зразків із даних. Майнінг даних зазвичай пов'язаний з вилученням корисної інформації з масивних наборів даних, тобто Big Data.


-1

Як щодо: навчальні машини вчитися

Розпізнайте змістовні зразки в даних: обробка даних

Прогнозуйте результат за відомими моделями: ML

Знайдіть нові функції, щоб перезаписати необроблені дані: AI

Цей мозок птаха справді потребує простих визначень.


-1

Часто пошук даних намагається "передбачити" деякі майбутні дані або "пояснити", чому щось відбувається.

Статистика більше використовується для перевірки гіпотези в моїх очах. Але це суб’єктивна дискусія.

Одне очевидне відмінність між статистиками та шахтарями даних можна знайти у типі зведених статистичних даних, які вони переглядають.

Статистика часто обмежує себе R² та точністю, тоді як шахтарі даних будуть дивитися на AUC, ROC криві, криві підйому тощо, а також можуть бути занепокоєні, використовуючи криву точності, пов'язану з витратами.

Пакети обміну даними (наприклад, з відкритим кодом Weka) мають вбудовані методи вибору вхідних даних, класифікацію векторів підтримки машин тощо, хоча вони здебільшого просто відсутні у статистичних пакетах, таких як JMP. Нещодавно я, коли проходив курси "майнінг даних у jmp" від людей jmp, і хоча це візуально сильний пакет, деякі важливі методи вилучення даних до / після / середини просто відсутні. Вибір вводу робився вручну, щоб отримати уявлення про дані, що ще знаходяться в майнінгу даних, це лише ваш намір випустити алгоритми, розумно, на великих даних і автоматично побачити, що виходить. Курс, очевидно, викладали люди зі статистики, що підкреслювало різний спосіб мислення між ними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.