Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.

3
Які переваги складання декількох LSTM?
Які переваги, чому можна використовувати декілька LSTM, складених один на один, у глибокій мережі? Я використовую LSTM, щоб представляти послідовність входів як єдиний вхід. Тож як тільки я маю це єдине представництво - чому я б його передавав знову? Я запитую це, тому що я це бачив у програмі покоління …

4
Яку проблему вирішують надмірне зондування, недооцінка та SMOTE?
У недавньому, добре сприйнятому питанні, Тім запитує, коли незбалансовані дані насправді є проблемою в машинному навчанні ? Передумова питання полягає в тому, що існує багато машинної літератури, яка обговорює баланс класів та проблему незбалансованих класів . Ідея полягає в тому, що набори даних з дисбалансом між позитивним та негативним класом …

2
Мішок слів для класифікації тексту: Чому б не просто використовувати частоту слова замість TFIDF?
Поширеним підходом до класифікації тексту є підготовка класифікатора від «мішечок слів». Користувач приймає текст для класифікації та підраховує частоти слів у кожному об'єкті з подальшим обрізанням, щоб зберегти отриману матрицю керованого розміру. Часто я бачу, як користувачі конструюють свій функціональний вектор за допомогою TFIDF. Іншими словами, зазначені вище частоти тексту …

1
Яка ймовірність того, що
Враховуючи nnn точок даних, кожна з яких має ddd функції, n/2n/2n/2 позначаються як 000 , інші n/2n/2n/2 позначаються як 111 . Кожна функція приймає значення від [0,1][0,1][0,1] випадковим чином (рівномірний розподіл). Яка ймовірність існування гіперплану, який може розділити два класи? Розглянемо спочатку найпростіший випадок, тобто d=1d=1d = 1 .

3
Перехресне підтвердження або завантаження для оцінки ефективності класифікації?
Який найбільш відповідний метод вибірки для оцінки продуктивності класифікатора для певного набору даних та порівняння його з іншими класифікаторами? Перехресне підтвердження здається стандартною практикою, але я читав, що такі методи, як завантажувальний .632, є кращим вибором. Надалі: Чи впливає вибір метрики ефективності на відповідь (якщо я використовую AUC замість точності)? …

2
Наскільки великий навчальний набір потрібен?
Чи існує загальний метод, який використовується для визначення кількості навчальних зразків, необхідних для підготовки класифікатора (LDA у цьому випадку) для отримання мінімальної точності узагальнення порогу? Я прошу, тому що я хотів би мінімізувати час калібрування, який зазвичай потрібен в інтерфейсі мозок-комп'ютер.


2
Як впоратися з різницею між розподілом тестового набору та навчальним набором?
Я думаю, що одним із основних припущень машинного навчання чи оцінки параметрів є те, що небачені дані надходять із того ж розподілу, що і навчальний набір. Однак у деяких практичних випадках розподіл тестового набору майже не відрізнятиметься від навчального набору. Скажіть про масштабну проблему багатокласифікації, яка намагається класифікувати описи товарів …

3
Візуалізація калібрування передбачуваної ймовірності моделі
Припустимо, у мене є прогнозована модель, яка створює для кожного примірника ймовірність для кожного класу. Тепер я визнаю, що існує багато способів оцінити таку модель, якщо я хочу використовувати ці ймовірності для класифікації (точність, відкликання тощо). Я також усвідомлюю, що крива ROC та площа під нею можна використовувати для визначення …

5
Альтернативи деревам класифікації з кращою прогнозованою (наприклад: CV) роботою?
Я шукаю альтернативу Класифікаційним деревам, яка могла б дати кращу прогнозовану здатність. Дані, з якими я маю справу, мають фактори як для пояснювальних, так і для пояснених змінних. Я пам’ятаю, що в цьому контексті натрапляв на випадкові ліси та нейронні мережі, хоч ніколи раніше не пробував їх, чи є ще …

4
Чому дослідники використовують 10-кратну перехресну перевірку замість тестування на наборі перевірки?
Я прочитав багато наукових праць про класифікацію настроїв та пов'язані з ними теми. Більшість із них використовують 10-кратну перехресну перевірку для підготовки та тестування класифікаторів. Це означає, що не проводиться окреме тестування / перевірка. Чому так? Які переваги / недоліки такого підходу, особливо для тих, хто проводить дослідження?

6
Точність тесту вища, ніж тренування. Як інтерпретувати?
У мене є набір даних, що містить щонайменше 150 прикладів (розділених на навчальні та тестові), з багатьма можливостями (вище 1000). Мені потрібно порівняти класифікатори та методи вибору функцій, які добре працюють на даних. Отже, я використовую три методи класифікації (J48, NB, SVM) та 2 методи вибору функції (CFS, WrapperSubset) з …

4
Коли застосовні результати Шао щодо перехресної перевірки відпустки один раз?
У своїй роботі " Вибір лінійної моделі шляхом перехресної валідації" Джун Шао показує, що для задачі вибору змінної при багатоваріантній лінійній регресії метод перехресної валідації "відхід один-один" (LOOCV) є "асимптотично несуперечливим". Простий англійською мовою, як правило, вибирають моделі із занадто великою кількістю змінних. У симуляційному дослідженні Шао показує, що навіть …

1
Вибір серед правильних правил скорингу
Більшість ресурсів на правильних правилах балів згадує низку різних правил скорингу, такі як втрата журналу, оцінка Brier або сферичне оцінювання. Однак вони часто не дають великих рекомендацій щодо відмінностей між ними. (Виставка А: Вікіпедія .) Вибір моделі, яка максимально збільшує логарифмічну оцінку, відповідає вибору моделі максимальної ймовірності, що здається хорошим …

2
Машини Больцмана з обмеженою частотою проти багатошарових нейронних мереж
Я хотів експериментувати з нейронною мережею щодо проблеми класифікації, з якою я стикаюся. Я зіткнувся з паперами, які розповідають про УЗМ. Але від того, що я можу зрозуміти, вони нічим не відрізняються від наявності багатошарової нейронної мережі. Це точно? Більше того, я працюю з R і не бачу жодних консервованих …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.