Як почати читати про майнінг даних?


14

Я новачок, який збирається почати читати про пошук даних. Я маю основні знання про ІС та статистику. Оскільки багато хто каже, що машинне навчання також відіграє важливу роль у видобутку даних, чи варто читати про машинне навчання, перш ніж я міг би продовжувати процес видобутку даних?


1
Обмін даними: Концепції та методики Jiawei Han - це хороший початок
aaronjg

Відповіді:


12

Сам опинившись у цьому положенні, я спробую дати деяке розуміння.

По-перше, скачайте елементи статистичного навчання . Він передбачає обчислення та лінійну алгебру, і хоча це дуже технічно, але також надзвичайно добре написано.

По-друге (або по-перше) подивіться підручники Ендрю Нґ з машинного навчання.

По-третє, отримайте деякі дані та починайте намагатися аналізувати дані. Вам потрібно буде розділити на навчальний і тестовий набори, а потім побудувати моделі на навчальному наборі та протестувати їх на тестовому наборі. Я знайшов пакет карети для R дуже корисним для всього цього. Після цього практикуйте, практикуйте практику (як і майже все інше).


1
ти назавжди відлякуєш бідолаху!
Ніл МакГуйган

Курс Енде Нґ буде запропоновано безкоштовно та в Інтернеті для студентів усього
Andre Holzner


4

Обмін даними може бути описовим або прогнозним.

З одного боку, якщо вас цікавить описовий пошук даних, то машинне навчання не допоможе.

З іншого боку, якщо ви зацікавлені в прогнозуванні даних, то машинне навчання допоможе вам зрозуміти, що ви намагаєтеся мінімізувати невідомий ризик (очікування функції збитку) при мінімізації емпіричного ризику: ви будете мати на увазі перевитрати, узагальнення. помилка та перехресне підтвердження. Наприклад, для питання узгодженості -NN для навчального зразка розміром повинен бути таким, що:нkn

  • нk переходить до нескінченності, коли переходить до нескінченності,n
  • nkn переходить до 0, коли переходить до нескінченності.n

3
Варто зазначити, що деякі автори люблять проводити розмежування між DM та ML залежно від величини . Мені особисто подобається підхід Радфорда Ніла в його курсі « Статистичні методи машинного навчання та обміну даними» : Багато проблем з машинним навчанням мають велику кількість змінних, додатки для передачі даних часто включають дуже велику кількість випадків. k/n
chl

3

Я додаю лише ще одне дуже хороше джерело навчальних посібників з вибору даних / машинного навчання Тома Мітчелла .

Він пояснює це дуже чітко, і ви також можете завантажити його презентації з його веб-сайту (разом з переглядом його лекцій там).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.