Для якого вибору ознак можна використати тест Chi?


11
  1. Тут я запитую про те, що зазвичай роблять інші, щоб використовувати тест-квадрат чи для вибору функцій wrt для вибору функцій при контрольованому навчанні. Якщо я правильно розумію, чи перевіряють вони незалежність між кожною ознакою та результатом і чи порівнюють значення p між тестами для кожної функції?

  2. У http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

    Хір-квадратний тест Пірсона - це статистичний тест, який застосовується до наборів категоричних даних, щоб оцінити, наскільки ймовірно, що будь-яка спостерігається різниця між множинами виникла випадково.

    ...

    Тест на незалежність оцінює, чи парні спостереження за двома змінними, виражені в таблиці непередбачених ситуацій , не залежать одна від одної (наприклад, опитування відповідей людей різних національностей, щоб побачити, чи є національність людини у відповідь).

    Тож чи повинні обидві змінні, незалежність яких перевіряється тестом, бути категоричними чи дискретними (дозволяючи впорядкувати, крім категорійних), але не бути суміжними?

  3. З http://scikit-learn.org/stable/modules/feature_selection.html , вони

    виконати тест до набору даних райдужки, щоб отримати лише дві найкращі характеристики.χ2

    У наборі даних райдужної оболонки всі функції є числовими та безперервними, а результат - мітками класів (категоричні). Як тест незалежності чи-ква застосовується до безперервних ознак?

    Щоб застосувати тест незалежності chi до квадрата до набору даних, ми спочатку перетворюємо безперервні функції в дискретні функції, використовуючи бінінг (тобто спочатку дискретизуючи безперервні домени функцій у біни, а потім замінюючи функції на виникнення значень ознак у бункерах )?

    Виникнення в декількох бункерах утворюють мультиноміальну ознаку (виникає або не є в кожному контейнері), тому тест незалежності чі може застосовуватися до них, правда?

    До речі, мабуть, чи можемо ми застосувати тест незалежності чи в квадраті до особливостей та результатів будь-якого виду ?

    Для підсумкової частини ми можемо вибрати особливості не лише для класифікації, але й для регресії, за допомогою тесту незалежності чи квадратів, шляхом поповнення безперервного результату, правда?

  4. Сайт "scikit learn" також говорить

    Обчисліть статистику хі-квадрата між кожною невід’ємною ознакою та класом.

    Цей показник може бути використаний для вибору особливостей n_features з найвищими значеннями для тестової статистики хі-квадрата від X, яка повинна містити лише негативні ознаки, такі як булеві або частоти (наприклад, кількість термінів у класифікації документів), відносно заняття.

    Чому для тесту потрібні негативні функції?

    Якщо ознаки не мають ознак, але є категоричними або дискретними, чи може тест все-таки застосовуватись до них? (Дивіться мою частину 1)

    Якщо функції негативні, ми завжди можемо бініти їхні домени та замінити їх появами (так само, як я думаю, застосувати тест до набору даних райдужки, див. Частину 2), правда?

Примітка. Думаю, Scikit Learn дотримується загальних принципів, і ось що я прошу тут. Якщо ні, то все одно гаразд.

Відповіді:


2

Я думаю, що частина вашої плутанини полягає в тому, з якими типами змінних можна порівняти чи-квадрат. Про це говорить Вікіпедія:

Він перевіряє нульову гіпотезу, вказуючи, що розподіл частоти певних подій, що спостерігаються у вибірці, відповідає певному теоретичному розподілу.

Таким чином, він порівнює частотні розподіли , також відомі як підрахунки, також відомі як негативні числа. Різні частотні розподіли визначаються категоріальною змінною; тобто для кожного зі значень категоріальної змінної повинен бути розподіл частоти, який можна порівняти з іншими.

Існує кілька способів отримати розподіл частоти. Це може бути з другої категоріальної змінної, в якій співзвуччя з першою категоріальною змінною рахуються для отримання дискретного розподілу частоти. Інший варіант - використовувати (кратну) числову змінну для різних значень категоріальної змінної, вона може (наприклад) підсумовувати значення числової змінної. Насправді, якщо категоріальні змінні бінарнізуються, то перша - це конкретна версія пізнішої.

Приклад

Як приклад розгляньте ці набори змінних:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Ці категоріальні змінні xі yможна порівняти шляхом підрахунку супутніх місць де , і це те , що відбувається з допомогою тесту хі-квадрат:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

Однак ви також можете бінарнізувати значення 'x' та отримати такі змінні:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Підрахунок значень тепер дорівнює підсумовуванню значень, що відповідають значенню z.

                 x1    x2
'wild'           1     0
'domesticated'   1     2

Як ви можете бачити одну категоричну змінну ( x) або кілька числових змінних ( x1і x2) однаково представлені у таблиці непередбачених ситуацій. Таким чином, тести у квадраті можуть бути застосовані до категоріальної змінної (мітка у sklearn) у поєднанні з іншою категоричною змінною або декількома числовими змінними (ознаки у sklearn).


Отже, якщо вибір функції chi_square можна використовувати лише для негативних функцій (freq, count, ect), що це означає для ситуації, коли є функція з негативними значеннями? Перетворити функцію чи використати інший метод вибору функції? Припустимо, ми проводили нові дослідження набору даних Iris, і у нас з'явилася можливість вимірювати зміну довжини сепалу щодня. Врешті-решт і будуть негативні значення. Рослина в'яне і скоротиться, що призведе до негативної зміни довжини. Можливо, ми намагаємося класифікувати, яка рослина це за швидкістю в'янення чи щось.
Араш Ховайда

1
Хі-квадрат заснований на пропорції значень (тобто розподіл частоти). Це реалізується шляхом підсумовування (бінарних) значень функції. Тож частина всієї суми повинна мати значення. При негативних значеннях це не так.
Пітер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.