Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.

2
Чи точність = 1- коефіцієнт помилки тесту
Вибачте, якщо це дуже очевидне питання, але я читав різні публікації і, здається, не можу знайти хорошого підтвердження. У разі класифікації, чи є точність класифікатора = 1- коефіцієнт помилки тесту ? Я вважаю, що точність є , але моє питання полягає в тому, як саме пов’язані точність та швидкість помилок …

3
PCA на текстових даних з великими розмірами до випадкової лісової класифікації?
Чи є сенс робити PCA перед проведенням випадкової лісової класифікації? Я маю справу з текстовими даними з високими розмірами, і я хочу зробити зменшення функції, щоб уникнути прокляття розмірності, але чи не випадкові ліси вже мають якесь зменшення розмірності?

2
Математика за деревами класифікації та регресії
Чи може хто-небудь допомогти пояснити деякі математики, що стоять за класифікацією в CART? Я хочу зрозуміти, як відбуваються два основні етапи. Наприклад, я підготував класифікатор CART на наборі даних і використав тестовий набір даних для позначення його прогнозованої продуктивності, але: Як обирається початковий корінь дерева? Чому і як формується кожна …

4
Перевірка, чи важливе підвищення точності
Припустимо, у мене є алгоритм, який класифікує речі на дві категорії. Я можу виміряти точність алгоритму на скажімо 1000 тестових речей - припустимо, 80% речей класифіковано правильно. Припустимо, я змінив алгоритм якось так, щоб 81% речей були класифіковані правильно. Чи може статистика мені щось сказати про те, чи є вдосконалення …

4
Як інтерпретувати криву ROC?
Я застосував логістичну регресію до своїх даних щодо SAS, і ось таблиця кривих і класифікація ROC. Мені подобається цифри в таблиці класифікації, але не зовсім впевнені, що показує крива roc та площа під нею. Будь-яке пояснення буде дуже вдячне.

3
Які повинні бути оптимальні параметри для класифікатора випадкових лісів?
В даний час я використовую RF інструментарій на MATLAB для проблеми бінарної класифікації Набір даних: 50000 зразків та понад 250 функцій Отже, якою має бути кількість дерев та випадково обрана функція на кожному розрізі, щоб виростити дерева? може будь-який інший параметр сильно впливає на результати?

2
Як Naive Bayes працює з безперервними змінними?
На моє (дуже базове) розуміння, Naive Bayes оцінює ймовірності на основі частоти класів кожної функції у навчальних даних. Але як він обчислює частоту безперервних змінних? І коли робите прогнозування, як воно класифікує нове спостереження, яке може не мати однакових значень у будь-якого спостереження у навчальному наборі? Він використовує якусь міру …

4
Чи можна використовувати середню квадратичну помилку для класифікації?
Я знаю формулу середньої квадратичної помилки і як її обчислити. Коли ми говоримо про регресію, ми можемо обчислити середню квадратичну помилку. Однак чи можна говорити про MSE для проблеми класифікації та як її обчислити?

1
Порівняння двох моделей, коли криві ROC перетинаються одна з одною
Однією загальною мірою, яка використовується для порівняння двох або більше моделей класифікації, є використання площі під кривою ROC (AUC) як спосіб опосередкованої оцінки їх ефективності. У цьому випадку модель з більшою AUC зазвичай трактується як краща, ніж модель з меншою AUC. Але, за даними Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ), коли …

4
Чи варто турбуватися про мультиколінеарність при використанні нелінійних моделей?
Скажімо, у нас є проблема бінарної класифікації з переважно категоричними ознаками. Ми використовуємо деяку нелінійну модель (наприклад, XGBoost або Random Forests), щоб дізнатися її. Чи варто все-таки турбуватися про багатоколірність? Чому? Якщо відповідь на вищезазначене відповідає дійсності, як з цим боротися, враховуючи, що використовуються ці типи нелінійних моделей?

3
Як можна використовувати моделі машинного навчання (GBM, NN тощо) для аналізу виживання?
Я знаю, що традиційні статистичні моделі, такі як регресія пропорційних ризиків Кокса та деякі моделі Каплана-Мейєра, можуть використовуватися для прогнозування днів до наступного виникнення події, наприклад, відмови тощо, тобто аналізу виживання Запитання Як можна використовувати регресійну версію моделей машинного навчання, таких як GBM, нейронні мережі тощо, для прогнозування днів до …

1
Як тренувати LSTM шар глибокої мережі
Для класифікації тексту я використовую lstm та мережу перекладу каналів. Я перетворюю текст в гарячі вектори і подаю кожен в lstm, щоб я міг його узагальнити як єдине подання. Потім я подаю його в іншу мережу. Але як я треную lstm? Я просто хочу, щоб текст класифікував послідовність - чи …

2
Чи можна за допомогою пакету caret отримати матриці плутанини для конкретних порогових значень?
Я отримав модель логістичної регресії (через train) для бінарного відповіді, і я отримав логістичну матрицю сплутаності через confusionMatrixв caret. Це дає мені матрицю плутанини логістичної моделі, хоча я не впевнений, який поріг використовується для її отримання. Як отримати матрицю плутанини для конкретних порогових значень, використовуючи confusionMatrixв caret?

2
Як може працювати багатокласний перцептрон?
У математики я не маю жодного фону, але я розумію, як працює простий Perceptron, і я думаю, що я розумію концепцію гіперплана (я уявляю це геометрично як площину в тривимірному просторі, яка відокремлює дві точкові хмари, подібно до того, як лінія відокремлена. дві точкові хмари у двовимірному просторі). Але я …

1
Таблиця репродукції 18.1 з "Елементи статистичного навчання"
Таблиця 18.1 в елементах статистичного навчання підсумовує ефективність декількох класифікаторів на наборі даних 14 класу. Я порівнюю новий алгоритм з мережею та еластичною сіткою для таких задач класифікації багатокласових. Використовуючи glmnetверсію 1.5.3 (R 2.13.0), я не в змозі відтворити точку 7. ( -окреслений мультином) в таблиці, де кількість використаних генів …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.