Дослідження відмінностей між групами населення


9

Скажімо, у нас є вибірка з двох груп: Aі B. Припустимо, що ці групи складаються з людей, і ми вирішимо описати людей за ознаками. Деякі з цих особливостей є категоричними (наприклад, вони їздять на роботу?), А деякі - числовими (наприклад, їх висота). Назвемо ці функції: . Ми збираємо сотні цих особливостей (наприклад, n = 200), припустимо для простоти, без помилок і шуму для всіх людей.X1Xn

Ми гадаємо, що дві групи різні. Наша мета - відповісти на наступні два питання:

  1. Чи насправді вони значно відрізняються?
  2. Що істотно відрізняється між ними?

Можуть допомогти такі методи, як дерева рішень (наприклад, випадкові ліси) та лінійний регресійний аналіз. Наприклад, можна було б ознайомитись із важливістю ознак у випадкових лісах або за пристосованими коефіцієнтами в лінійній регресії, щоб зрозуміти, що може відрізняти ці групи, та дослідити взаємозв’язки між ознаками та популяціями.

Перш ніж спуститись по цьому маршруту, я хочу тут зрозуміти свої варіанти, що є хорошим та сучасним проти поганої практики. Зауважте, що моя мета - це не передбачення саме по собі, а тестування та виявлення значних відмінностей між групами.

Які існують принципові підходи до вирішення цієї проблеми?

Ось деякі проблеми, які я маю:

  • Такі методи, як аналіз лінійної регресії, можуть не відповісти повністю (2), правда? Наприклад, одна придатність може допомогти знайти деякі відмінності, але не всі суттєві відмінності. Наприклад, мультиколінеарність може завадити нам виявити, як різняться всі функції в різних групах (принаймні, за один прийом). З тієї ж причини, я б очікував, що ANOVA також не може дати повну відповідь на (2).

  • Не зовсім зрозуміло, як би відповів прогностичний підхід (1). Наприклад, яку класифікаційну / передбачувальну втрату ми повинні мінімізувати? І як ми перевіряємо, чи значно відрізняються групи, коли ми маємо пристосування? Нарешті, я переживаю, що відповідь, яку я отримую (1), може залежати від конкретного набору класифікаційних моделей, які я використовую.

Відповіді:


5

Давайте розглянемо проблему наступним чином.

Сказати X=(X1,X2,..Xn) і Y є бінарною змінною, що стоїть для населення: Y=0 означає перше населення, Y=1означає друге населення. Нульова гіпотеза може бути виражена кількома рівнозначними способами:

  • H0: популяції однакові
  • H0: розповсюдження X дано Y=0 те саме, що і розподіл X дано Y=1
  • H0: X і Y є незалежними
  • H0: для будь-якої функції f в {0,1}, f(X) і Y є незалежними

Я мало знаю про випадкові ліси, але вони можуть вважатися передбачуваними цілями, що уникають перенапруження. Якщо ми їх ідеалізуємо зовсім небагато: це щось здатне виявити будь-які стосунки між нимиY і будь-які особливості X без перевищення.

На цьому можна спробувати щось. Розбийте оригінальний набір даних на навчальний набір і тестовий набір. Тоді:

  • тренувати випадковий ліс f що прогнозує Y з X на навчальному наборі.
  • зробити простий тест незалежності чи-квадрата (з ризиком α) між f(X) і Y на тестовому наборі

Цей тест досить консервативний. Якщо випадковий ліс є поганим методом, в гіршому випадку виводить німогоf(X), тоді він відхилить H0 з вірогідністю менше α все одно (коли H0правда). Перевиконання навіть не буде проблемою, оскільки ми використовуємо тест і навчальний набір. Однак потужність тесту безпосередньо залежить від інтелекту випадкового лісового методу (або будь-якого використовуваного предиктора).

Зауважте, що ви можете використовувати декілька можливих предикторів: спочатку звичайну стару логістичну регресію, потім логістичну регресію з деякими перехресними ознаками, потім декілька дерев рішень, потім випадковий ліс ... Але якщо ви це зробите, вам слід скорегувати αдо кількості тестів, щоб уникнути "помилкових відкриттів". Див.: Налаштування альфа для багаторазового тестування


Дякую Бенуа (+1). Це виглядає застосовним до питання (1). Будь-які ідеї, як вирішити (2) цей чи альтернативний підхід?
Амеліо Васкес-Рейна

Як вказував DJohnson, РФ не тлумачиться. Логістична регресія може бути (з принаймні окремими ознаками). Це дійсно залежить від прогноктора. Слідом за ідеєю, близькою до РФ, можна використовувати багато (випадкових) дерев рішень (з добре налаштованимиα) і відображати дерево з найменшим (= найкращим) р-значенням.
Бенуа Санчес

Дякую. Мені подобається пропозиція встановити випадкові ДТ і знайти ті, які мають найбільш значний результат у тесті, подібному до чі-квадрата. Я припускаю, що ви посилаєтесь на виправлення Бонферроні, коли ви згадували про коригуванняα. Чим це відрізнятиметься від використання радіочастотних сигналів та тестування кожного дерева?
Амеліо Васкес-Рейна

Крім того, я сподіваюсь на RF-сигнали - визначити особливості, які фіксують відмінності (тобто отримати хоча б часткову відповідь на (2)). Вони не ідеальні для інтерпретації (хоча я припускаю, що це можна зробити, обмеживши їх висоту). В будь-якому випадку те саме можна сказати і про ДТ, правда? Просто переконайтесь, що я добре розумію ваш коментар.
Амеліо Васкес-Рейна

Так, я маю на увазі Бонферроні. За допомогою РЧ ви створюєте єдиний предиктор, усереднюючи багато DT. Тоді ви робите єдиний тест із цим середнім, а не кожним із DT, в результаті чогоαризик. З декількома DT, які ви робитеn тести, в результаті яких 1(1α)nризик (якщо ви не використовуєте Bonferroni). Це потрібно розглядати як багаторазовий тест, тоді як (єдине) радіочастотне усереднення багатьох DT є єдиним тестом.
Бенуа Санчес

3

Ви не кажете, скільки функцій доступно в даних. Мало, багато, масове? Чи можна припустити, що вони мають однакові риси між популяціями, всі вимірюються за допомогою одних і тих же інструментів, методів та способів? Якщо ні, то у вас є більша проблема, коли може працювати модель вимірювання помилок у змінних .

Можливо, @benoitsanchez відповів на питання №1).

Wrt # 2), я не впевнений, що РФ можуть допомогти. Використовуючи більш формальну модель, таку як одностороння ANOVA, застосована до однієї особливості, може бути розроблений тест на різницю між сукупностями для ознак. Підсумовуючи результати цих тестів, виходячи з масштабів тесту, а також його значущості, стає можливим описовий профіль того, як популяції різняться між ознаками. Це загальноприйняте спеціальне та евристичне рішення, яке може бути недостатньо строгим для ваших смаків, уподобань та підготовки.

Не будучи добре в позначеннях типу латекс, дозвольте мені просто описати, як можуть працювати ці тести: спочатку побудуйте якусь макро цикл, який пропускає всі функції, по одній функції за один раз. З кожним проходом циклу нова функція стає цільовою або DV з X, що складається з фіктивної змінної для сукупності, а також будь-яких змінних керування, які є відповідними. Переконайтеся, що для кожної функції використовуються однакові елементи керування, а також, що базові дані є абсолютно однаковими для всіх ANOVA, виключаючи варіації, які можна віднести до перипетій кінцевих зразків даних. Згрупуйте значення F-тесту для фіксованої змінної для кожної функції. Це забезпечить стандартизовану метрику, яка дозволяє порівнювати функції. F-тести є кращими, ніж встановлені бета-версії, починаючи з бета-версійне стандартизовані, виражаючись в одиницях і std-розробках кожної окремої особливості.

Ваш останній коментар "Я хвилююся, що відповідь, яку я отримую (1), може залежати від конкретного набору моделей класифікації / регресії, які я використовую", завжди відповідає дійсності. Цілком імовірно, що відповіді можуть відрізнятися залежно від використовуваних моделей. Це також є вираженням загального нездужання серед сильно теоретичних та класично підготовлених статистиків, яким не комфортно або не вдається визнати недетермінований характер прикладного статистичного моделювання. Прекрасним протиотрутою проти цих симптомів є нещодавня книга Ефрона та Хасті про комп'ютерні вікові статистичні умовиводи . Вони переносять статистичне моделювання у ХХІ століття, епоху наукових даних та машинного навчання, відверто визнаючи ітеративний, наближаючий, евристичний характер усіхмоделі, що мають термін помилки. Не треба бути байєсом, щоб визнати правду, притаманну цьому спостереженню. Їх - це освіжаюча перспектива, яка відрізняється від жорсткої детермінізму класичної статистичної практики 20-го століття, яка кинула руки, коли, наприклад, матриця перехресних продуктів не перевернула та / або припущення якоїсь педантичної моделі не було виконано.


Дякую @DJohnson. Коли ви сказали "Сукупність значень F-тесту для манекенної змінної для кожної функції", що саме означає? тобто що б ви точно зробили з цим результатом? Також, що ви розумієте під бета-версією в цьому контексті? Зрештою, чи не обмежиться цей ітеративний підхід ніякими взаємодіями? Наприклад, використовуючи оригінальний приклад, що робити, якщо є значна різниця у "зрості людей, які їдуть на роботу?"
Амеліо Васкес-Рейна

Крім того, чому б ви продовжували послідовність односторонніх тестів на ANOVA, а не робити багатобічну ANOVA?
Амеліо Васкес-Рейна

2
Хороші запитання. З точки зору отриманого описового профілю, я думав просто записати F-тест і пов'язані з ним значення або значення p для кожної функції, а потім класифікувати їх від високих до низьких. Оскільки F-тест є співвідношенням хі-квадратів і, отже, не симетричний, до звіту можуть бути додані засоби сукупності, щоб допомогти зрозуміти спрямованість результатів. Крім того, t-тест може допомогти в цьому розумінні. Цей профіль допоможе зрозуміти величину чи силу особливостей як функції основних груп населення.
Майк Хантер

Як зазначалося, контрольні змінні повинні бути додані у відповідних випадках. Вони можуть включати взаємодії, якщо вони послідовно використовуються у всіх моделях. Введення додаткових факторів, за визначенням, поширило б модель від односторонньої до багаторазової регресії або ANOVA.
Майк Хантер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.