Який найкращий класичний класифікатор 2-х класів для вашої програми? [зачинено]


15

Правила:

  • один класифікатор на відповідь
  • голосуйте, якщо ви згодні
  • знижувати / видаляти дублікати.
  • помістіть свою заявку в коментар

Відповіді:


14

Випадковий ліс

  • легко фіксує складну структуру / нелінійне співвідношення
  • інваріантний до масштабу змінних
  • не потрібно створювати фіктивних змінних для категоричних прогнозів
  • змінний вибір не дуже потрібен
  • відносно важко переоцінити

Вибір активного мотиву аптамера, прогнозування вологості лісових ґрунтів, цифра OCR, багатоспектральний супутниковий аналіз зображення, пошук музичної інформації,

13

Логістична регресія :

  • швидко та добре працювати на більшості наборів даних
  • майже не налаштовано параметрів
  • обробляє як дискретні / безперервні функції
  • модель легко інтерпретується
  • (не обмежується лише бінарними класифікаціями)

Можливо, немає жодних параметрів, які можна настроїти, але треба справді працювати з безперервними змінними (перетвореннями, сплайнами тощо), щоб викликати нелінійність.
B_Miner

12

Підтримка векторної машини


Існує немає нічого справді особливого SVM, крім того , що змушує користувача думати про регуляризації. Для більшості практичних проблем регресія хребта [ядро] працює так само добре.
Дікран Марсупіал

2
@dikran Я думаю, що SVM - чудовий класифікатор, тому що він рідкісний та надійний для людей, що втратили лихви - це не відповідає дійсності для логістичної регресії! ось чому SVM - це найсучасніший класифікатор. Єдине питання, яке може бути проблемою, - складність у часі - але я думаю, що це нормально.
suncoolsu

@suncoolsu Якщо ви хочете одержати поодинокі показники, ви отримаєте більше ощадливості від регульованої логістичної регресії з LASSO, ніж у SVM. Розрідженість SVM є побічним продуктом функції втрат, тому ви не отримаєте стільки, скільки ви робите з алгоритмом, де ощадливість є ціллю дизайну. Також часто при оптимальному значенні гіперпараметра (наприклад, вибраного за допомогою перехресної перевірки) більша частина розрідженості SVM зникає. SVM не є більш надійним для людей, що вижили, ніж регульована логістична регресія - це головним чином регуляризація, а не втрата шарніру.
Дікран Марсупіал

@Dikran - мою точну річ - важлива якась пеналізація. Ви можете отримати це за допомогою Priors, додавши покарання тощо
suncoolsu

1
@suncoolsu У такому випадку SVM не є чудовим класифікатором, це лише один із багатьох регуляризованих класифікаторів, таких як регресія хребта, регульована логістична регресія, Гауссові процеси. Основним бенефісом SVM є його звернення з теорії обчислювального навчання. На практиці важливішими є інші міркування, наприклад, чи потрібен вам імовірнісний класифікатор, коли інші функції втрат, ймовірно, переважають. IMHO, SVM приділяється занадто багато уваги, а не широкому сімейству методів ядра.
Дікран Марсупіал

7

Регульований дискримінант за контрольовані проблеми із галасливими даними

  1. Обчислювально ефективний
  2. Надійна до шуму та забруднень у даних
  3. Як лінійні класифікатори дискримінанта (LD), так і квадратичні дискримінанти (QD) можуть бути отримані з тієї ж реалізації, встановивши параметри регуляризації '[lambda, r]' до '[1 0]' для класифікатора LD і '[0 0]' для QD класифікатор - дуже корисний для довідкових цілей.
  4. Модель легко інтерпретувати та експортувати
  5. Добре працює для розріджених та "широких" наборів даних, де матриці коваріації класів можуть бути не точно визначені.
  6. Оцінку ймовірності заднього класу можна оцінити для кожного зразка, застосувавши функцію softmax до дискримінантних значень для кожного класу.

Посилання на оригінал 1989 року по статті Фрідмана і ін тут . Також є дуже хороше пояснення Кунчевої у її книзі " Поєднання класифікаторів шаблону ".


5

Градієнт підсилює дерева.

  • Принаймні настільки ж точний, як РФ у багатьох програмах
  • Легко включає в себе пропущені значення
  • Важливе значення (на зразок РФ, ймовірно, упереджено на користь безперервного та багаторівневого номіналу)
  • Діаграми часткової залежності
  • ГБМ порівняно з randomForest в R: обробляє МНОГО більших наборів даних

4

Класифікатор Гауссового процесу - він дає імовірнісні прогнози (що корисно, коли ваші робочі відносні частоти класів відрізняються від таких у вашому навчальному наборі, або еквівалентні ваші помилково-позитивні / хибно-негативні витрати невідомі або змінні). Він також передбачає невизначеність невизначеності в прогнозуванні моделі через невизначеність при "оцінці моделі" з кінцевого набору даних. Функція ко-дисперсії еквівалентна функції ядра у SVM, тому вона також може працювати безпосередньо над невекторальними даними (наприклад, рядками або графіками тощо). Математична основа також акуратна (але не використовуйте наближення Лапласа). Автоматизований вибір моделі за рахунок максимальної граничної ймовірності.

По суті поєднує в собі хороші риси логістичної регресії та SVM.


Чи є пакет R, який ви рекомендуєте реалізувати? Яку перевагу ви реалізуєте для цього методу? Спасибі!
липень

Боюся , що я є користувачем MATLAB (я використовую GPML пакет gaussianprocess.org/gpml/code/matlab/doc ), так що я не можу порадити про реалізацію R, але ви можете знайти що - то підходяще тут gaussianprocess.org/# код . Якщо R не має пристойного пакету для лікарів, комусь потрібно написати його!
Дікран Марсупіал

Добре, дякую. Чи дозволяє ця методологія обрати "важливі змінні, такі як значення змінної важливості випадкових лісів або рекурсивне усунення ознак за допомогою SVM?"
липень

Так, ви можете використовувати функцію коваріації «Автоматичне визначення відповідності» та вибирати гіперпараметри, максимізуючи байєсівські докази для моделі (хоча це може зіткнутися з тими ж проблемами, що виникають із SVMS, тому часто модель краще працює без вибору функції).
Дікран Марсупіал

4

L1-регульована логістична регресія.

  • Це обчислювально швидко.
  • Він має інтуїтивне тлумачення.
  • Він має лише один легко зрозумілий гіперпараметр, який можна автоматично налаштувати шляхом перехресної перевірки, що часто є хорошим шляхом.
  • Його коефіцієнти кусково-лінійні, і їх відношення до гіперпараметра моментально і легко видно на простому графіку.
  • Це один із менш сумнівних методів вибору змінної.
  • Крім того, це дійсно класна назва.

+1 Гіперпараметр також може бути інтегрований аналітично, тому немає необхідності в перехресній валідації для багатьох застосувань, див., Наприклад, theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf та біоінформатику .oxfordjournals.org / content / 22/19 / 2348.full.pdf .
Дікран Марсупіал

3

kNN


3

Наївні Байеси та випадкові наївні затоки


2
Чи можете ви дати характеристику проблеми, коли RNB дав хороші результати?
Łukasz Lew

Ні ;-) Це було лише для відродження басейну.

1

K - означає кластеризацію для безконтрольного навчання.


Питання спеціально задає класифікатор.
Прометей
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.