Кореляція між дихотомічною та безперервною змінною


10

Я намагаюся знайти співвідношення між дихотомічною та суцільною змінною.

З моєї основної роботи з цього питання я виявив, що я повинен використовувати незалежний t-тест, і передумовою цього є те, що розподіл змінної має бути нормальним.

Я провів тест Колмогорова-Смірнова для перевірки нормальності і виявив, що суцільна змінна є ненормальною і перекошеною (приблизно для 4000 точок даних).

Я робив тест Колмогорова-Смірнова на весь діапазон змінних. Чи повинен я розділити їх на групи і зробити тест? Тобто, скажіть, якщо у мене risk level( 0= не ризиковано, 1= ризиковано) і рівень холестерину, тоді я повинен:

  • Розділіть їх на дві групи, як

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • Взяти їх разом і застосувати тест? (Я виконував це лише для всього набору даних.)

Після цього, який тест потрібно зробити, якщо він все ще не є нормальним?

EDIT: Наведений вище сценарій був лише описом, який я намагався надати для своєї проблеми. У мене є набір даних, який містить понад 1000 змінних і близько 4000 зразків. Вони мають або суцільний, або категоричний характер. Моє завдання - передбачити дихотомічну змінну на основі цих змінних (можливо, придумати модель логістичної регресії). Тому я подумав, що початкове дослідження передбачає пошук кореляції між дихотомічною та суцільною змінною.

Я намагався побачити, як відбувається розподіл змінних, і, отже, намагався перейти до t-test. Тут я знайшов нормальність як питання. Тест Колмогорова-Смірнова дав значення значущості 0,00 у більшості цих змінних.

Чи варто тут припускати нормальність? Скісність і куртоз цих змінних також показують, що дані перекошені (> 0) майже у всіх випадках.

Відповідно до замітки, поданої нижче, я буду досліджувати точково-бісеріальну кореляцію далі. Але щодо розподілу змінних я все ще не впевнений.


1
Кореляція (будь-якого виду) між континуалом і двійковою (груповою) змінною, не набагато більше (а може бути і менше ...), ніж просто порівняння засобів (якесь значення ...) між групами, тому зазвичай краще бути просто так!
kjetil b halvorsen

Відповіді:


14

Я трохи розгублений; у вашому заголовку написано "кореляція", але ваш пост посилається на t-тести. Т-тест - це тест центрального розташування - точніше, чи середнє значення одного набору даних відрізняється від середнього іншого набору? Кореляція, з іншого боку, показує взаємозв'язок двох змінних. Існують різноманітні заходи кореляції, здається, що точкові кореляційні кореляції доречні у вашому випадку.

Ви вірні, що t-тест передбачає нормальність; однак тести на нормальність, ймовірно, дають значні результати навіть для тривіальних ненормативів з N 4000. Т-тести є досить стійкими до скромних відхилень від нормальності, якщо дисперсії двох наборів даних приблизно рівні і вибірки розміри приблизно рівні. Але непараметричний тест є більш надійним для людей, що вижили, і більшість з них мають потужність майже настільки ж високу, як і тест t, навіть якщо розподіли є нормальними.

Однак у вашому прикладі ви використовуєте "холестерин" як ризикований або неризиковий. Це майже напевно погана ідея. Дихотомізація суцільної змінної викликає магічне мислення. Це говорить про те, що в певний момент холестерин переходить від "не ризикованого" до "ризикованого". Припустимо, ви використали 200 як своє обмеження - тоді ви говорите, що хтось із холестерином 201 такий же, як хтось із 400, а хтось із 199 - це як хтось із 100. Це не має сенсу.


2
Я погоджуюсь, і я думаю, що більшість з нас згодні, що дихотомізація тратить інформацію і що це може бути сирим або грубим або незграбним методом. Я просто думаю, що аргумент "магічного мислення" трохи переборщить. Вибирати, щоб намалювати різницю - це не те саме, що вірити, що різниці немає. Я сподіваюсь, що наступить час, коли мені буде зручно і вартий компроміс - робити категорії з якоїсь безперервної змінної, як для аналітичних, так і для звітних цілей. Всього мої 2 копійки.
rolando2

2
R2

6

Давайте спростимо речі. З N = 4000 для рівня холестерину у вас не повинно виникнути проблем із тим, що ваші результати упереджуються люди, які переживають люди. Отже, ви можете використовувати саму кореляцію, як випливає з початкового речення. Буде мало значення, чи будете ви оцінювати кореляцію методом Пірсона, Спірмена або Точково-Бізерного.

Якщо замість цього вам справді потрібно сформулювати результати з точки зору типової різниці холестерину між групами з високим рівнем ризику та низьким рівнем ризику, тест Манна-Вітні U прекрасно використовувати, але ви можете також використовувати більш інформативний t -test. З цим N (і знову ж таки, з астрономічними вихованками, що, без сумніву, можна виключити), вам не потрібно хвилюватися, що відсутність нормальності поставить під загрозу ваші результати.


Дякуємо за Ваш відповідь. Але якщо мені доведеться знати про людей, що виживають, робить велике спотворення, чи правильно використовувати куртоз та косисть для його виявлення? Якщо це правда вище, за якими значеннями куртозу та косості слід вважати, що розподіл не є нормальним. Дякуємо за вашу відповідь
Sree Aurovindh

Я припускаю, що виходячи з знань обмеженого вмісту, що при вмісті холестерину у вас не буде значення, яке на багато порядків вище, ніж у інших. Тому я думаю, що ви можете використовувати параметричний метод, такий як кореляція або t-тест. Це не те, що я вважаю, що розподіл є нормальним. Вам не потрібно, щоб це було нормально. До речі, з огляду на відповідь Петра: я вірив (і сподіваюся), що у вас є джерело статусу високого / низького ризику, яке не залежало від показника холестерину. Я згоден, що дихотомізація, мабуть, не корисна.
rolando2

2
Чи можу я запропонувати вам додати розділ до свого оригінального запитання з позначкою "РЕДАКТИРУВАТИ: ....", який визначає, які питання залишаються для вас, на які не зверталися до отриманих відповідей та коментарів.
rolando2

Дякую за вашу пропозицію. Я оновив те саме. Вибачте за неоднозначне запитання.
Спасибі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.