Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.


2
Класифікація з підвищенням градієнта: як зберегти прогноз у [0,1]
Питання Я намагаюся зрозуміти, як прогноз зберігається в інтервалі [0,1][0,1][0,1] коли робимо бінарну класифікацію з підвищенням градієнта. Припустимо, що ми працюємо над проблемою бінарної класифікації, і наша цільова функція - втрата журналу, −∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i)) , де yyy - цільова змінна ∈{0,1}∈{0,1}\in \{0,1\} а HHH - наша …


1
Що означає, що AUC - це напівправильне залікове правило?
Правильне бальне оцінювання - це правило, яке максимально реалізується "справжньою" моделлю, і воно не дозволяє "хеджувати" або грати в систему (свідомо повідомляти про різні результати, як це справжня віра моделі для покращення балів). Оцінка Brier належна, точність (правильно класифікована пропорція) є неправильною і часто не рекомендується. Іноді я бачу, що …

3
Що таке нульова модель в регресії і як вона пов'язана з нульовою гіпотезою?
Що таке нульова модель в регресії та яка взаємозв'язок між нульовою моделлю та нульовою гіпотезою? Наскільки я розумію, чи означає це? Використовуючи "середню змінну відповіді" для прогнозування змінної безперервної відповіді? Використовуючи "розподіл міток" для прогнозування дискретних змінних відповідей? Якщо це так, то, здається, відсутні відсутні зв'язки між нульовою гіпотезою.

2
Найсучасніший досвід загального навчання за даними 69 року
Я намагаюся зрозуміти контекст відомої книги Міньського та Паперта «Перцептрони» 1969 року, настільки критичного для нейронних мереж. Наскільки я знаю, інших загальних алгоритмів навчання під контролем не було, окрім персептрон: дерева рішень почали стати корисними лише наприкінці 70-х, випадкові ліси та СВМ - 90-ті. Здається, що метод джекніфа був уже …

1
Навчання основного випадкового поля Маркова для класифікації пікселів на зображенні
Я намагаюся навчитися використовувати Маркові випадкові поля для сегментації регіонів зображення. Я не розумію, які параметри в MRF чи чому максимізація очікування, яку я виконую, не вдається іноді сходитися до рішення. Починаючи з теореми Байєса, у мене , де - значення сірого масштабу пікселя, а - мітка класу. Я вирішив …

2
тренінгові підходи для сильно незбалансованого набору даних
У мене сильно незбалансований набір даних тесту. Позитивний набір складається з 100 випадків, тоді як негативний - 1500 випадків. Що стосується тренінгу, у мене є більший пул кандидатів: позитивний навчальний набір має 1200 випадків, а негативний навчальний набір - 12000 випадків. Для подібного сценарію у мене є кілька варіантів: 1) …

4
Низька точність класифікації, що робити далі?
Отже, я новачок у галузі ML та намагаюся зробити якусь класифікацію. Моя мета - передбачити результат спортивної події. Я зібрав декілька історичних даних і зараз намагаюся підготувати класифікатора. У мене було близько 1200 зразків, 0,2 з них я розділив для тестових цілей, інші я вклав у пошук сітки (включена перехресна …

3
Пошук сітки при перехресній валідації k-кратної
Я маю набір даних 120 зразків у 10-кратній перехресній валідації. В даний час я підбираю дані тренувань першого тренінгу і роблю на ньому 5-кратну перехресну перевірку, щоб вибрати значення гамма та С шляхом пошуку по сітці. Я використовую SVM з ядром RBF. Оскільки я роблю десять 10 крос-валідацій, щоб повідомити …

3
Колінеарні змінні в навчанні багатошарового LDA
Я готую багатокласний класифікатор LDA з 8 класами даних. Під час виконання тренінгу я отримую попередження: " Змінні колінеарні " Я отримую точність тренувань понад 90% . Я використовую бібліотеку scikits-learn у Python, щоб тренувати та перевіряти дані класу Multi-Class. Я також отримую гідну точність тестування (близько 85% -95% ). …

1
Чи не існує в статистиці теорії навчання проблема надмірного розміщення на тестовому наборі?
Розглянемо проблему класифікації набору даних MNIST. Згідно з веб-сторінкою MNIST Янна Лекуна , "Ciresan та ін." отримали 0,23% помилок на тестовому наборі MNIST за допомогою Convolutional Neural Network. Позначимо навчальний набір MNIST як , тестовий набір MNIST як D t e s t , остаточну гіпотезу, яку вони отримали, використовуючи …

5
Який вплив має підвищення навчальних даних на загальну точність системи?
Чи може хтось підсумувати для мене можливі приклади, при яких ситуаціях збільшення даних про тренінг покращує загальну систему? Коли ми виявимо, що додавання більшої кількості даних про навчання може призвести до надмірних даних і не дати належної точності даних тесту? Це дуже неспецифічне запитання, але якщо ви хочете відповісти на …

2
Яку міру помилки в навчанні повідомити про випадкові ліси?
Наразі я підганяю випадкові ліси для проблеми класифікації, використовуючи randomForestпакунок на R, і не знаю, як повідомити про помилку навчання для цих моделей. Моя помилка тренінгу близька до 0%, коли я обчислюю її за допомогою передбачень, які я отримую за допомогою команди: predict(model, data=X_train) де X_trainдані про навчання. Відповідаючи на …

3
Пропозиції щодо чутливого до навчання часу в умовах сильно незбалансованого середовища
У мене є набір даних з кількома мільйонами рядків і ~ 100 стовпців. Я хотів би виявити близько 1% прикладів у наборі даних, які належать до загального класу. У мене мінімальне обмеження точності, але через дуже асиметричну вартість я не надто захоплююсь будь-яким особливим відкликанням (до тих пір, поки мені …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.