Запитання з тегом «unbalanced-classes»

Дані, організовані в окремі категорії або * класи *, можуть створювати проблеми для певного аналізу, якщо кількість спостережень (н) належність до кожного класу не є постійною для всіх класів. Класи з нерівними є * незбалансованими *. н

2
Додавання ваг до логістичної регресії для незбалансованих даних
Я хочу моделювати логістичну регресію з незбалансованими даними (9: 1). Я хотів спробувати параметр ваг у glmфункції у R, але я не на 100% впевнений, що це робить. Скажімо, моя вихідна змінна c(0,0,0,0,0,0,0,0,0,1). тепер я хочу надати «1» вагу в 10 разів більше. тому я навожу аргумент ваг weights=c(1,1,1,1,1,1,1,1,1,1,1,10). Коли …

2
Порядок змінних в ANOVA має значення, чи не так?
Чи правильно я розумію, що порядок, у якому змінні вказані в багатофакторному ANOVA, має значення, але порядок не має значення при виконанні множинної лінійної регресії? Тож припускаючи такий результат, як вимірювана втрата крові y та дві категоричні змінні метод аденоїдектомії a , метод тонзилектомії b . Модель y~a+bвідрізняється від моделі …

2
Класифікація тестування даних про незбалансований вибірки
Я працюю над сильно незбалансованими даними. У літературі використовується декілька методів, щоб збалансувати дані за допомогою повторного відбору вибірок (над- чи недостатня вибірка). Два хороших підходи: SMOTE: Техніка надмірного відбору синтетичних меншин ( SMOTE ) ADASYN: Адаптивний синтетичний підбір проб для збалансованого навчання ( ADASYN ) Я реалізував ADASYN, оскільки …

3
Криві ROC проти точності відкликання на незбалансованому наборі даних
Я щойно закінчив читати цю дискусію. Вони стверджують, що PR AUC кращий за RUC AUC на незбалансованому наборі даних. Наприклад, у нас є 10 зразків тестових наборів даних. 9 зразків є позитивними та 1 - негативними. У нас є жахлива модель, яка прогнозує все позитивне. Таким чином, ми матимемо метрику, …

2
Чи страждає класифікація GBM від незбалансованих розмірів класів?
Я маю справу з контрольованим питанням бінарної класифікації. Я хотів би використовувати пакет GBM для класифікації людей як незаражених / інфікованих. У мене в 15 разів більше незаражених, ніж заражених. Мені було цікаво, чи страждають моделі GBM у разі незбалансованих розмірів класу? Я не знайшов жодних посилань, що відповідали б …

3
Пропозиції щодо чутливого до навчання часу в умовах сильно незбалансованого середовища
У мене є набір даних з кількома мільйонами рядків і ~ 100 стовпців. Я хотів би виявити близько 1% прикладів у наборі даних, які належать до загального класу. У мене мінімальне обмеження точності, але через дуже асиметричну вартість я не надто захоплююсь будь-яким особливим відкликанням (до тих пір, поки мені …

3
SVM для незбалансованих даних
Я хочу спробувати використовувати векторні машини підтримки (SVM) у своєму наборі даних. Перш ніж спробувати проблему, мене попередили, що SVM не справляються з надзвичайно незбалансованими даними. У моєму випадку я можу мати 95-98% 0 і 2-5% 1. Я намагався знайти ресурси, які говорили про використання SVM на рідкісних / незбалансованих …



1
Чи відрізняється максимізація точності, коли надмірна / недостатня вибірка неврівноважених класів відрізняється від мінімізації витрат на помилкову класифікацію?
Перш за все, я хотів би описати деякі загальні схеми, якими користуються книги Data Mining, що пояснюють, як поводитися з незбалансованими наборами даних . Зазвичай основний розділ має назву Незбалансовані набори даних, і вони охоплюють ці два підрозділи: Методи класифікації та вибірки, що чутливі до витрат. Схоже, що, зіткнувшись з …

1
Чи підходить збільшення градієнта для даних із низькими показниками подій, як 1%?
Я намагаюся збільшити градієнт на наборі даних зі швидкістю події близько 1% за допомогою майнера Enterprise, але це не вдається отримати жодного результату. Моє питання, оскільки це підхід на основі дерева рішень, чи правильно використовувати градієнтний прискорення при такій низькій події?

2
Чому відрізок P> 0,5 не є "оптимальним" для логістичної регресії?
ПЕРЕДБАЧЕННЯ: Мене не хвилюють переваги використання обрізання чи ні, або як слід обрати обріз. Моє питання суто математичне і обумовлене цікавістю. Логістична регресія моделює задню умовну ймовірність класу А проти класу В, і вона відповідає гіперплану, коли задні умовні ймовірності рівні. Тож теоретично я зрозумів, що точка класифікації 0,5 зведе …

1
Як зменшити кількість помилкових позитивних результатів?
Я намагаюся вирішити завдання, яке називається пішохідним виявленням, і треную двійковий клацифер на двох позитивних категоріях - люди, негативи - на тлі. У мене є набір даних: кількість позитивів = 3752 кількість від’ємника = 3800 Я використовую поїзд \ test split 80 \ 20% і RandomForestClassifier форму scikit-learn з параметрами: …


3
Яку функцію втрати слід використовувати для отримання високої точності або високого виклику бінарного класифікатора?
Я намагаюся зробити детектор об'єктів, які трапляються дуже рідко (на зображеннях), планую використовувати двійковий класифікатор CNN, застосований у розсувному / зміненому вікні. Я сконструював збалансований набір для позитивних і негативних тренувань 1: 1 (чи правильно це робити в такому випадку btw?), І класифікатор добре працює на тестовому наборі з точки …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.