Запитання з тегом «unbalanced-classes»

Дані, організовані в окремі категорії або * класи *, можуть створювати проблеми для певного аналізу, якщо кількість спостережень (н) належність до кожного класу не є постійною для всіх класів. Класи з нерівними є * незбалансованими *. н

3
Чи має значення незбалансований зразок під час логістичної регресії?
Гаразд, тому я думаю, що у мене достатньо гідний зразок, враховуючи велике правило 20: 1: досить великий зразок (N = 374) для загальної кількості 7 змінних прогнозних прогнозів. Моя проблема полягає в наступному: який би набір змінних предиктора я не використовував, класифікації ніколи не стають кращими, ніж специфічність 100% та …

6
Двійкова класифікація з сильно незбалансованими класами
У мене є набір даних у вигляді (функції, двійковий вихід 0 або 1), але 1 трапляється досить рідко, тому просто передбачуючи 0, я отримую точність між 70% і 90% (залежно від конкретних даних, на які я дивлюся ). Методи МЛ дають мені приблизно таку саму точність, і я вважаю, що …

5
Коли незбалансовані дані насправді є проблемою в машинному навчанні?
Ми вже мали кілька питань про незбалансоване даних при використанні логістичної регресії , SVM , дерева рішень , упаковки в пакети і ряд інших подібних питань, що робить його дуже популярною темою! На жаль, кожне з питань, схоже, відповідає алгоритму, і я не знайшов загальних рекомендацій щодо поводження з незбалансованими …

4
Дисбаланс класу в контрольованому машинному навчанні
Це взагалі питання, не характерне для будь-якого методу чи набору даних. Як ми маємо справу з проблемою дисбалансу класу в контрольованому машинному навчанні, де число 0 становить близько 90%, а число 1 - близько 10% у вашому наборі даних. Як ми оптимально навчаємо класифікатор. Один із способів, за якими я …

4
Навчання дерева рішень проти незбалансованих даних
Я новачок у видобутку даних і намагаюся навчити дерево рішень щодо набору даних, який є вкрай незбалансованим. Однак у мене проблеми із поганою точністю прогнозування. Дані складаються з студентів, які вивчають курси, а змінна класу - це статус курсу, який має два значення - Відкликаний або Поточний. Вік Етнічність Стать …

1
Чи змінюється відбір вибірки коефіцієнтами логістичної регресії?
Якщо у мене є набір даних із дуже рідкісним позитивним класом, і я знижую вибірку негативного класу, то виконую логістичну регресію, чи потрібно мені коригувати коефіцієнти регресії, щоб відобразити той факт, що я змінив поширеність позитивного класу? Наприклад, скажімо, у мене є набір даних із 4 змінними: Y, A, B …

3
Що є першопричиною проблеми дисбалансу класів?
Останнім часом я багато думав про "проблему дисбалансу класів" у машино-статистичному навчанні, і все глибше втягуюсь у відчуття, що просто не розумію, що відбувається. Спершу дозвольте мені визначити (або спробувати) визначити свої умови: Проблема дисбалансу класів у машинному / статистичному навчанні полягає в тому, що деякі алгоритми бінарної класифікації (*) …

4
Оптимізація кривих точності пригадування при дисбалансі класу
У мене є завдання класифікації, де у мене є ряд предикторів (один з яких є найбільш інформативним), і я використовую модель MARS для побудови свого класифікатора (мене цікавить будь-яка проста модель, і використання glms для ілюстративних цілей було б теж добре). Зараз у мене є величезний класовий дисбаланс у навчальних …

4
Коли я повинен збалансувати класи в наборі даних про навчання?
У мене був онлайн-курс, де я дізнався, що незбалансовані класи в навчальних даних можуть призвести до проблем, оскільки алгоритми класифікації відповідають правилам більшості, оскільки це дає хороші результати, якщо дисбалансу занадто багато. У завданні потрібно було збалансувати дані, підкресливши мажоритарний клас. Однак у цьому блозі хтось стверджує, що збалансовані дані …

6
Розмір вибірки для логістичної регресії?
Я хочу зробити логістичну модель зі своїх даних опитування. Це невелике опитування чотирьох житлових колоній, в якому було опитано лише 154 респонденти. Моя залежна змінна - "задовільний перехід до роботи". Я виявив, що з 154 респондентів 73 сказали, що вони задовільно перейшли на роботу, а решта - не. Тож залежна …

4
Яке правильне використання scale_pos_weight в xgboost для незбалансованих наборів даних?
У мене дуже незбалансований набір даних. Я намагаюся дотримуватися порад щодо налаштування та користуватися, scale_pos_weightале не знаю, як слід його настроїти. Я бачу, що RegLossObj.GetGradientце: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight тому градієнт позитивної вибірки був би більш впливовим. Однак, згідно з документом xgboost , статистика градієнта завжди використовується …

4
Яку проблему вирішують надмірне зондування, недооцінка та SMOTE?
У недавньому, добре сприйнятому питанні, Тім запитує, коли незбалансовані дані насправді є проблемою в машинному навчанні ? Передумова питання полягає в тому, що існує багато машинної літератури, яка обговорює баланс класів та проблему незбалансованих класів . Ідея полягає в тому, що набори даних з дисбалансом між позитивним та негативним класом …

2
Як впоратися з різницею між розподілом тестового набору та навчальним набором?
Я думаю, що одним із основних припущень машинного навчання чи оцінки параметрів є те, що небачені дані надходять із того ж розподілу, що і навчальний набір. Однак у деяких практичних випадках розподіл тестового набору майже не відрізнятиметься від навчального набору. Скажіть про масштабну проблему багатокласифікації, яка намагається класифікувати описи товарів …

3
Класифікаційні / оціночні показники для сильно незбалансованих даних
Я маю справу з проблемою виявлення шахрайства (як кредитно-рахунковий). Як такий, існує сильно незбалансований зв’язок між шахрайськими та не шахрайськими спостереженнями. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html надає чудовий огляд різних класифікаційних показників. Precision and Recallабо kappaобидва здаються хорошим вибором: Одним із способів обґрунтувати результати таких класифікаторів є порівняння їх з результатами базових класифікаторів та …

5
Відбір проб для незбалансованих даних в регресії
Були хороші запитання щодо поводження з незбалансованими даними в контексті класифікації , але мені цікаво, що люди роблять для вибірки регресії. Скажімо, проблемний домен дуже чутливий до знаку, але лише дещо чутливий до величини цілі. Однак величина досить важлива, щоб модель мала регресію (суцільна ціль), а не класифікацію (позитивні та …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.