Запитання з тегом «categorical-encoding»

Представлення категоричних змінних у вигляді наборів числових змінних. Необхідний у багатьох видах аналізу для них для обробки категоричних даних. Поширений приклад - використання категоричного предиктора в регресії / ANOVA за допомогою фіктивного кодування, ефекту кодування, кодування Гельмерта, визначених користувачем контрастів тощо.

4
Що таке контрастна матриця?
Що саме є контрастною матрицею (термін, що стосується аналізу з категоричними предикторами) і як саме вказана контрастна матриця? Тобто, що таке стовпці, що таке рядки, які обмеження в цій матриці і що означає число у стовпці jта рядку i? Я спробував заглянути в документи та в Інтернеті, але, схоже, всі …

7
Чому, наприклад, стать зазвичай кодується 0/1, а не 1/2?
Я розумію логіку кодування для аналізу даних. Моє запитання нижче стосується використання певного коду. Чи є причина, чому стать часто кодується як 0 для жіночої та 1 для чоловічої? Чому це кодування вважається "стандартним"? Порівняйте це з Жіноча = 1 та Чоловіча = 2. Чи є проблема з цим кодуванням?

3
Чому нам потрібен фіктивний код категоричних змінних
Я не впевнений, навіщо нам маніпулювати категоричні змінні коду. Наприклад, якщо у мене є категоріальна змінна з чотирма можливими значеннями 0,1,2,3, я можу замінити її двома вимірами. Якби змінна мала значення 0, вона мала б 0,0 у двох вимірах, якби вона мала 3, вона мала б 1,1 у двох вимірах …

1
Видалення одного з стовпців при використанні однокольорового кодування
Я розумію, що при машинному навчанні це може бути проблемою, якщо ваш набір даних має дуже корельовані функції, оскільки вони ефективно кодують ту саму інформацію. Нещодавно хтось зазначав, що коли ви робите одноразове кодування за категоріальною змінною, ви отримуєте корельовані функції, тому вам слід відкинути один із них як "посилання". …

3
Коли слід використовувати множину регресії з фіктивним кодуванням проти ANCOVA?
Нещодавно я проаналізував експеримент, який маніпулював 2 категоричними змінними та однією безперервною змінною за допомогою ANCOVA. Однак рецензент припустив, що множинна регресія з категоріальною змінною, кодованою як манекенні змінні, є більш підходящим тестом для експериментів як з категоричною, так і безперервною змінними. Коли доцільно використовувати ANCOVA проти багаторазової регресії з …

2
Значення категоричного предиктора в логістичній регресії
У мене виникають проблеми з інтерпретацією значень z для категоричних змінних в логістичній регресії. У наведеному нижче прикладі я маю категоричну змінну з 3 класами, і відповідно до значення z, CLASS2 може бути релевантним, а інші - ні. Але тепер що це означає? Що я міг би об'єднати інші класи …

5
Як перекодувати категоричну змінну в числову змінну при використанні SVM або нейронної мережі
Для використання SVM або нейронної мережі йому потрібно перетворити (кодувати) категоричні змінні в числові змінні, нормальним методом у цьому випадку є використання 0-1 двійкових значень з k-м категоричним значенням, перетвореним у (0,0, .. ., 1,0, ... 0) (1 знаходиться на k-й позиції). Чи є інші методи для цього, особливо коли …

1
Як ставитись до категоричних прогнозів у LASSO
Я запускаю LASSO, який має деякі категоричні прогнози змінних і деякі безперервні. У мене питання щодо категоричних змінних. Перший крок, який я розумію, - це розбити кожного з них на манекени, стандартизувати їх для справедливої ​​штрафу, а потім регресувати. Існує кілька варіантів для обробки фіктивних змінних: Включіть усі, крім однієї, …

2
Якісне кодування змінної в регресії призводить до "особливості"
У мене є незалежна змінна назва "якість"; ця змінна має 3 способи реагування (погана якість; середня якість; висока якість). Я хочу ввести цю незалежну змінну в свою багаторазову лінійну регресію. Коли у мене є двійкова незалежна змінна (фіктивна змінна, я можу кодувати 0/1 ), її легко ввести в модель множинної …

2
"Змінна манекена" проти "змінної індикатора" для номінальних / категоричних даних
"Змінна манекен" та "змінна індикатора" - це мітки, що часто використовуються для опису належності до категорії з кодуванням 0/1; зазвичай 0: Не є членом категорії, 1: Член категорії. 26.11.2014 швидкий пошук на scilar.google.com (із додаються цитатами) виявляє, що "фіктивна змінна" використовується приблизно в 318000 статтях, а "змінна показник" використовується приблизно …

2
Як зробити регресію з ефектом кодування замість фіктивного кодування в R?
Зараз я працюю над регресійною моделлю, де я маю лише категоричні / факторні змінні як незалежні змінні. Моя залежна змінна - коефіцієнт перетвореного logit. Досить просто просто запустити нормальну регресію в R, оскільки R автоматично знає, як кодувати манекени, як тільки вони стають типу "фактор". Однак цей тип кодування також …

1
Які існують різні типи кодування для категоричних змінних (в R) і коли ви їх використовуєте?
Якщо вам підходить лінійна модель або змішана модель, існують різні типи кодувань, які дозволяють перетворити категоричну або номінальну змінну в ряд змінних, для яких оцінюються параметри, такі як манекенне умовлення (за замовчуванням R) та кодування ефектів. Я чув, що кодування ефектів (іноді їх називають відхиленням або контрастним кодуванням) є кращим, …

2
Розуміння створення фіктивних (ручних або автоматизованих) змінних у GLM
Якщо у формулі glm використовується факторна змінна (наприклад, стать із рівнями M і F), ​​створюються фіктивні змінні (і), які можна знайти в резюме моделі glm разом із пов'язаними з ними коефіцієнтами (наприклад, genderM) Якщо замість того, щоб покластися на R, поділити коефіцієнт таким чином, коефіцієнт кодується в ряд числових змінних …

3
Які алгоритми вимагають однокольорового кодування?
Я ніколи не знаю, коли використовувати однокольорове кодування для не упорядкованих категоричних змінних, а коли не потрібно. Я використовую його, коли алгоритм використовує метрику відстані для обчислення подібності. Чи може хто-небудь дати загальне правило щодо того, які типи алгоритмів вимагатимуть, щоб не упорядковані категоричні ознаки були однокольоровими, а які - …

2
Регресія, заснована, наприклад, на дні тижня
Мені потрібно трохи допомоги, щоб рухатись у правильному напрямку. З давніх пір я вивчив будь-яку статистику, і жаргон, схоже, змінився. Уявіть, що у мене є набір даних про автомобіль, таких як Час подорожі з міста А до міста Б Відстань від міста A до міста B Розмір двигуна Розмір взуття …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.