Який зв’язок між


38

Який взаємозв'язок між та у наступному сюжеті? На мій погляд, є негативні лінійні відносини, але оскільки у нас багато людей, що пережили, вони дуже слабкі. Чи правий я? Я хочу навчитися пояснювати, як можна пояснити розсіювачі.XYХ

введіть тут опис зображення


3
Що таке ? Що таке Y ? Який процес ви виробили непрацюючі? Що змушує вас думати, що вони не є реальними вимірами? Що таке теорія? ХY
абауман

4
Дякуємо за ваш коментар Я просто бачу цей сюжет у книзі. Y - залежна змінна, а X - незалежна змінна. Теорії немає. він побудував розсіювач, щоб показати співвідношення Y, заданого x. І в книзі є питання, яке запитує, чи є стосунки чи ні, лінійні чи нелінійні? Сильний чи слабкий?
PSS

7
Це вправа в тассеографії . Це дуже популярно серед денних торговців, і вони називають це технічним аналізом . В основному, не знаючи нічого про природу даних, це безрезультатна вправа
Аксакал

1
@chl ви рок за пожертвування на винагороду для помахи =)
Cam.Davidson.Pilon

3
@Aksakal Статистична мова зазвичай розуміє "відношення" досить буквально: як опис наборів кортезів чисел. Наприклад, коефіцієнт кореляції описує співвідношення. Ніяких наслідків щодо генезису, природи чи причинних асоціацій серед базових змінних немає. Я згоден з вами, що "пояснення" зазвичай розуміється в такому більш глибокому сенсі, але оскільки стосунки настільки сильно підкреслені у питанні, я вважаю, що справедливо лише не надто сильно перештовхувати буквальне значення "пояснення". Думаю, що описувати розсипчасті просто читання чайних листів надто далеко, ІМХО.
whuber

Відповіді:


50

Питання стосується декількох понять: як оцінювати дані, подані лише у вигляді розсіювача, як узагальнити розсіювач, і чи (і в якій мірі) співвідношення виглядає лінійним. Візьмемо їх по порядку.

Оцінка графічних даних

Використовуйте принципи розвідувального аналізу даних (EDA). Вони (принаймні спочатку, коли вони були розроблені для використання з олівцем і папером) підкреслюють прості, прості в обчисленні, надійні підсумки даних. Один з найпростіших видів резюме заснований на позиціях всередині набору чисел, таких як середнє значення, яке описує "типове" значення. Середні показники легко оцінити надійно за допомогою графіки.

Розсіювачі демонструють пари чисел. Перша з кожної пари (як зображено на горизонтальній осі) дає набір одиничних чисел, які ми могли б підсумувати окремо.

У цьому конкретному розсіювальному шарі, здається ,, що значення y лежать у двох майже повністю окремих групах : значення вище вгорі та значення, що дорівнює або менше 60 внизу. (Це враження підтверджується малюванням гістограми значень у, яка різко бімодальна, але це було б багато роботи на цьому етапі.) Я пропоную скептикам примружитися до розсіювача. Коли я це роблю - використовуючи гауссова розмитість Гаусса з великим радіусом (тобто стандартний швидкий результат обробки зображень) крапок у розсіювачі, я бачу це:6060

Малюнок 0

Дві групи - верхня і нижня - досить очевидні. (Верхня група набагато легша, ніж нижня, тому що містить набагато менше точок.)

Відповідно, підсумовуємо групи у-значень окремо. Я зроблю це, малюючи горизонтальні лінії у медіанів двох груп. Для того, щоб підкреслити враження від даних і показати, що ми не робимо ніяких обчислень, я (а) видалив усі прикраси, як осі та лінії сітки, і (b) розмив точки. Мало інформації про шаблони в даних втрачається таким чином, "примружившись" до графіки:

Малюнок

Так само я намагався позначити медіани значень x вертикальними відрізками рядків. У верхній групі (червоні лінії) ви можете перевірити - порахувавши краплі - що ці лінії насправді розділяють групу на дві рівні половинки, як горизонтально, так і вертикально. У нижчій групі (сині лінії) я лише візуально оцінив позиції, фактично не рахуючи.

Оцінка відносин: регресія

Точки перетину є центрами двох груп. Одним чудовим підсумком співвідношення між значеннями x та y було б повідомлення про ці центральні позиції. Потім хотілося б доповнити цей підсумок описом того, наскільки дані поширюються в кожній групі - ліворуч і праворуч, вгорі та внизу - навколо їх центрів. Для стислості я цього робити не буду, але зауважте, що (орієнтовно) довжини накреслених відрізків рядків відображають загальний розкид кожної групи.

Нарешті я намалював (пунктирну) лінію, що з'єднує два центри. Це розумна лінія регресії. Це хороший опис даних? Звичайно, ні: подивіться, як розповсюджуються дані навколо цього рядка. Це навіть свідчення лінійності? Це мало актуально, оскільки лінійний опис настільки поганий. Тим не менше, оскільки це питання, яке стоїть перед нами, давайте вирішимо його.

Оцінка лінійності

Зв'язок є лінійним у статистичному сенсі, коли або значення y змінюються врівноваженим випадковим способом навколо лінії, або видно, що значення x змінюються врівноваженим випадковим способом навколо лінії (або обох).

Перше, мабуть, тут не так: оскільки значення y, здається, поділяються на дві групи, їх зміна ніколи не буде виглядати врівноваженою в сенсі того, що вони приблизно симетрично розподілені над або під лінією. (Це негайно виключає можливість скидання даних у пакет лінійної регресії та виконання найменших квадратів, відповідніх y проти x: відповіді не були би актуальними.)

Як щодо варіації x? Це більш правдоподібно: на кожній висоті на ділянці горизонтальний розкид точок навколо пунктирної лінії досить врівноважений. Поширення в цьому розкид , здається, бути трохи більше при більш низьких висотах (низькі значень у), але , можливо , це тому , що є багато більше очок там. (Чим більше випадкових даних у вас є, тим ширшими будуть їхні крайні значення.)

Більше того, під час сканування зверху вниз немає місця, де горизонтальний розкид навколо лінії регресії сильно не врівноважений: це було б свідченням нелінійності. (Ну, може бути, приблизно y = 50 або близько цього може бути занадто багато великих значень x. Цей тонкий ефект може бути сприйнятий як додатковий доказ розбиття даних на дві групи навколо значення y = 60.)

Висновки

Ми це бачили

  • Має сенс розглядати х як лінійну функцію y плюс деяку "хорошу" випадкову варіацію.

  • Це НЕ має сенс для подання у у вигляді лінійної функції від ї плюс випадкових змін.

  • Лінію регресії можна оцінити, розділивши дані на групу високих значень y та групу низьких значень y, знайти центри обох груп за допомогою медіанів та з'єднати ці центри.

  • Отримана лінія має нахил вниз, що вказує на негативну лінійну залежність.

  • Сильних відступів від лінійності немає.

  • Тим не менше, оскільки розкиди значень x навколо лінії все ще великі (порівняно із загальним поширенням значень x для початку), нам доведеться охарактеризувати цей негативний лінійний зв’язок як "дуже слабкий".

  • Ці дані можуть бути більш корисними для опису даних як формування двох хмари овальної форми (одна для y вище 60, а друга для нижчих значень y). У межах кожної хмари між х і у є мало виявлених відносин. Центри хмар поблизу (0,29, 90) та (0,38, 30). Хмари мають порівнянне поширення, але верхня хмара має набагато менше даних, ніж нижня (можливо, на 20% більше).

Два з цих висновків підтверджують зроблені в самому питанні, що існує слабкий негативний зв’язок. Інші доповнюють і підтримують ці висновки.

Один із висновків, зроблених у питанні, яке, здається, не відповідає, - це твердження про те, що існують "люди, що не впадають у життя". При більш ретельному розгляді (як накреслено нижче) не вдасться виявити жодних окремих пунктів, а то й невеликих груп балів, які справедливо могли б вважатись сторонніми. Після досить тривалого аналізу можна звернути увагу на дві точки біля середнього правого або одну точку в нижньому лівому куті, але навіть вони не будуть дуже сильно змінювати оцінку даних, незалежно від того, чи вважаються вони чи ні зовнішній.


Подальші вказівки

Набагато більше можна сказати. Наступним кроком буде оцінка поширення цих хмар. Взаємозв'язки між x і y в межах кожної з двох хмар можна оцінювати окремо, використовуючи ті ж методи, що показані тут. Незначна асиметрія нижньої хмари (більше даних, здається, з’являється при найменших значеннях y), можна оцінити і навіть відкоригувати шляхом повторного вираження значень y (квадратний корінь може добре працювати). На цьому етапі було б доцільно шукати зовнішні дані, оскільки в цей момент опис міститиме інформацію про типові значення даних, а також про їх поширення; Останнє (за визначенням) було б занадто далеко від середини, щоб пояснити його спостережуваною кількістю поширення.

Жодна з цих робіт, яка є досить кількісною, не вимагає набагато більше, ніж пошук середніх груп даних та проведення простих обчислень з ними, а тому може бути виконано швидко та точно навіть тоді, коли дані доступні лише у графічній формі. Кожен результат, який повідомляється тут, включаючи кількісні значення, легко можна знайти протягом декількох секунд за допомогою системи відображення (наприклад, копія та олівець :-)), яка дозволяє робити легкі позначки на верхній частині графіки.


4
Ого. Я б ніколи не бачив цих двох груп і отриманого рядка. І я це сумніваюся.
rvl

4
@Russ Я радий почути, що хтось ставить під сумнів це дослідження, тому що жодна EDA не є унікальною чи диспозитивною. Я включив ще одне зображення, щоб допомогти вам бачити те, що я бачу. Я хотів би запропонувати вам опублікувати відповідь, що є однаковою чи більшою мірою, і настільки ж корисно описовою.
whuber

12
Як люди, ми надзвичайно схильні знаходити зразки, навіть ті, яких там немає. Я думаю, що цілком правдоподібно отримати сюжетний розкид, подібний до того, який ми маємо тут, лише з двома незалежними РВ, один з яких перекошений. Я не маю доказів цього, і я не маю запропонувати альтернативного аналізу - окрім того, що говорить, що стосунків мало або взагалі немає. Так, можливо, бімодальність присутня. Якщо процес можна було б спостерігати далі, ми могли б побачити, що відбувається. Я просто думаю, що нам потрібно бути обережними та усвідомлювати нашу схильність реагувати на правдоподібно хибні моделі.
rvl

4
@Russ Ви маєте рацію. Досвід необхідний, щоб не читати занадто багато в шаблонах. Мій досвід говорить, що зі 150-200 балами важко випадковим чином отримати сильну бімодальність, яку я вимірював у y-координатах. Такий досвід можна легко та швидко доповнити в даний час симуляцією: коли ви думаєте, що ви бачите шаблон, то (1) кількісно охарактеризуйте його та (2) шукайте його у випадкових вибірках, що генеруються відповідно до більш простої альтернативної гіпотези. Якщо візерунок проявляється дуже сильно, то ви можете звинувачувати свою зорову кору, але в іншому випадку ви, можливо, щось знайшли.
whuber

1
@Russ Дякую Це не був залишковий сюжет, який я описав - ролі x і y зворотні. Однак це все-таки інформативно. Гетероскедастичність - це найяскравіша річ: вона, здається, надає підтримку гіпотезі про два кластери (що призвело б до зникнення гетеросцедастичності). Зауважте, я агностик щодо цієї гіпотези. Все, що я написав тут, - в оригінальному дусі ретельного, надійного опису даних. Будь-яка окрема крива як опис цих даних буде грубою і, можливо, незадовільною.
whuber

31

Давай розважимось!

Перш за все, я Подряпини на дані з вашого графіка.

Х=0,4Х

Y=β0+βХХ+βcмакс(Х-θ,0)+ε

Оцінки коефіцієнта:

Y=50.9-37.7Х-26.74436макс(Х-0,46,0)

Y=50.9-37.7ХХ

Час відтворення з даними


YYХR2YN=170Х>0,5Y

ln(Y)

(Червона лінія - це просто лінійна регресія ln (Y) на X.)

Оновлено графіком за пропозицією Русса Лента.

журналYХYжурналYХYХжурнал(Y)ХYХ


1
logYXY

1
@Russ Класично, що бімодальні розподіли можуть виявляти перекоси і пропонувати перетворення журналів. Але розподіл y тут справді бімодальний, і журнал, ймовірно, не є корисним способом його повторного вираження. Коли два компоненти розділені, нижній все ще є позитивно перекошеним, а квадратний корінь - приблизно потрібну кількість, щоб перетворити його для отримання симетричного розподілу. Квадратний корінь не впливає помітно на симетрію верхньої групи, вказуючи, що корінь може бути хорошим вибором. Однак це не виправляє бімодальність - і в цьому криється проблема будь-якого гладкого цього типу.
whuber

1
Алексіс, у наших відповідях ми обидва винні в тому, що використовуємо "сильних" у невизначених способах. Сенс, в якому я мав на увазі "слабкий", натякав у деяких моїх фразуваннях, які мали на меті вказати на те, що нахил невеликий порівняно з розсіюванням у значень y. Я не думаю, що ваш аналіз приходить до іншого висновку з цього приводу. Я відчував потребу в обережності, оскільки, приймаючи гіпотетично, що може бути заслуга моделі суміші для y, виявляється, що у верхній групі насправді може бути слабкий позитивний зв’язок між x і y та відсутність стосунків у нижчій групі.
whuber

3
Алексіс, книга EDA Tukey їх повна. Докладніше про техніку (більшої витонченості з математичним обгрунтуванням) див. У Хогліна, Мостеллера та Тукі, Розуміння надійного та дослідницького аналізу даних .
whuber

2
посібник @rivu. Взяв 10 або 15 хвилин верхівки. Кожну точку розміщують спочатку за допомогою вказівника, потім точно розміщують її за допомогою клавіш зі стрілками.
Олексій

21

Ось мої 2 ¢ 1,5 ¢. Для мене найвидатнішою особливістю є те, що дані різко зупиняються і «накопичуються» внизу діапазону Y. Я бачу два (потенційні) «кластери» і загальну негативну асоціацію, але найбільш помітними рисами є (потенційний) ефект підлоги та той факт, що верхній кластер із низькою щільністю поширюється лише на частину діапазону X.

Оскільки «кластери» є невиразно біваріантними нормальними, параметрична модель нормальної суміші може бути цікавою для спробу. Використовуючи дані @Alexis, я виявляю, що три кластери оптимізують BIC. "Ефект підлоги" високої щільності вибирається як третій кластер. Код наступним чином:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

введіть тут опис зображення

Тепер, що ми можемо зробити з цього? Я не думаю, що Mclustце просто розпізнавання людського зразка. (В той час, як моє прочитання розсіювача може бути.) З іншого боку, не виникає сумніву, що це пост-хок . Я побачив, що мені здається цікавим зразком, і вирішив це перевірити. Алгоритм щось знаходить, але потім я лише перевірив, що я вважав, що може бути там, щоб великий палець точно був на шкалі. Іноді можна розробити стратегію, щоб пом'якшити це (див. Чудову відповідь @ whuber тут ), але я не маю уявлення, як іти таким процесом у таких випадках. Як результат, я приймаю ці результати з великою кількістю солі (я робив подібні речі досить часто, щоб хтось пропускав цілий шейкер). Це дає мені певний матеріал, щоб подумати і обговорити з моїм клієнтом, коли ми зустрінемось далі. Що це за дані? Чи має сенс, що може бути ефект підлоги? Чи було б сенсом, що можуть бути різні групи? Наскільки значущим / дивовижним / цікавим / важливим було б, якби вони були справжніми? Чи існують незалежні дані / чи могли б ми їх зручно отримати для чесного перевірки цих можливостей? І т.д.


1
+1 Для вказівки, як дослідний аналіз, природно, призводить до цікавих питань . Я б хотів, щоб я більше наголосив на цьому у своїй відповіді. Хоча я думаю, що це підштовхувало б до думки (на даний момент), що насправді є три різні групи, результати кластеру все ще представляють дійсний спосіб бачити, що між x і y існує негативний взаємозв'язок та узагальнення цього відношення. Мене цікавить, наскільки автоматична кластеризація може бути загалом корисним дослідницьким інструментом - за умови, що ми не спокусимося прочитати занадто багато результатів.
whuber

14

Дозвольте описати те, що я бачу, як тільки я дивлюсь на це:

ухух0,5Y|хх

Х

х>0,5х

Е(Y|Х=х)х

введіть тут опис зображення

YХYХY|х

Це те, що я бачив, ґрунтуючись на чисто "очному" огляді. Трохи розігравшись у чомусь на зразок основної програми маніпулювання зображеннями (на зразок тієї, з якою я намалював лінії), ми могли б почати розбирати кілька точніших цифр. Якщо ми оцифруємо дані (що досить просто за допомогою пристойних інструментів, якщо іноді трохи нудно виправитись), то ми можемо провести більш досконалий аналіз такого враження.

Цей вид дослідницького аналізу може призвести до важливих питань (іноді тих, хто дивує людину, яка має дані, але лише показав сюжет), але ми повинні трохи подбати про те, наскільки наші моделі були обрані такими перевірками - якщо ми застосовуємо моделі, вибрані на основі появи ділянки, а потім оцінюємо ці моделі за одними і тими ж даними, ми будемо стикатися з тими ж проблемами, які ми отримуємо, коли використовуємо більш формальний вибір і оцінку моделі на одних і тих же даних. [Це взагалі не заперечує важливості дослідницького аналізу - просто ми повинні бути обережними щодо наслідків його виконання, не зважаючи на те, як ми його робимо. ]


Відповідь на коментарі Руса:

[пізніше редагування: Для уточнення - я в цілому погоджуюся з критикою Русса, сприйнятою як загальна обережність, і, безумовно, є певна можливість, яку я бачив більше, ніж є насправді. Я планую повернутися і відредагувати їх у більш обширному коментарі до помилкових моделей, які ми зазвичай ототожнюємо оком, і способів, як ми можемо почати уникати найгіршого. Я вірю, що я також зможу додати деякі обґрунтування того, чому я вважаю, що це, мабуть, не просто помилково в даному конкретному випадку (наприклад, через регресограму або ядро ​​0-порядку гладко, хоча, звичайно, немає більше даних для перевірки, є лише поки що це може піти; наприклад, якщо наш зразок непредставницький, навіть перекомпонування лише отримує нас поки що.]

Я повністю погоджуюся, що ми маємо тенденцію бачити помилкові зразки; це я часто зазначаю як тут, так і деінде.

Одне, що я пропоную, наприклад, переглядаючи залишкові сюжети або QQ-сюжети, - це генерувати безліч сюжетів, де відома ситуація (як це має бути, так і де припущення не дотримуються), щоб отримати чітке уявлення про те, якою має бути модель. ігнорується.

Ось приклад, коли сюжет QQ розміщується серед 24 інших (які задовольняють припущення), щоб ми побачили, наскільки сюжет незвичний. Цей вид вправ важливий, тому що допомагає нам не дурити себе, інтерпретуючи кожне маленьке хитання, більшість з яких буде простим шумом.

Я часто зазначаю, що якщо ви зможете змінити враження, охопивши кілька балів, ми можемо покластися на враження, що створюються нічим іншим, як шумом.

[Однак, коли це видно з багатьох точок, а не з кількох, важче стверджувати, що його там немає.]

Y

Коли ми не маємо більше даних для перевірки, ми можемо принаймні подивитися, чи має тенденцію пережити повторне розміщення (завантажуйте двовимірний розподіл і дивіться, чи майже завжди він присутній), чи інші маніпуляції, коли враження не повинні бути очевидними якщо це простий шум.

1) Ось один із способів перевірити, чи є видима бімодальність не просто косою плюс шум - чи відображається вона в оцінці щільності ядра? Чи все ще видно, якщо ми побудуємо оцінки щільності ядра під різними перетвореннями? Тут я перетворюю його на більшу симетрію, на 85% пропускної здатності за замовчуванням (оскільки ми намагаємось визначити відносно невеликий режим, і пропускна здатність за замовчуванням не оптимізована для цієї задачі):

введіть тут опис зображення

YYжурнал(Y)6868журнал(68)

2) Ось ще один основний спосіб зрозуміти, чи є це більше, ніж просто "шум":

Крок 1: виконайте кластеризацію на Y

введіть тут опис зображення

Х

введіть тут опис зображення

Точки з крапками були згруповані по-різному від кластера "все в одному наборі" в попередньому сюжеті. Я зроблю ще трохи пізніше, але, схоже, можливо, поруч із цим положенням може бути горизонтальний "розкол".

Е(Y|х)

3) Редагувати: Ось регресограма для відрізків шириною 0,1 (виключаючи самі кінці, як я запропонував раніше):

введіть тут опис зображення

Це цілком відповідає первісному враженню від сюжету; це не доводить, що моє міркування було правильним, але мої висновки дійшли до того ж результату, що і регресограма.

Е(Y|х)

(Наступне, що слід спробувати, це оцінювач Надаяра-Уотсон. Тоді я можу побачити, як це відбувається під час перестановки, якщо встигну.)

4) Пізніше редагуйте:

Nadarya-Watson, ядро ​​Гаусса, пропускна здатність 0,15:

введіть тут опис зображення

Знову ж таки, це напрочуд відповідає моєму початковому враженню. Ось оцінювачі NW на основі десяти повторних прикладів завантаження:

введіть тут опис зображення

Широка закономірність є, хоча пара повторних прикладів не так чітко відповідає опису, що базується на всіх даних. Ми бачимо, що випадок рівня ліворуч є менш певним, ніж справа - рівень шуму (частково від небагатьох спостережень, частково від широкого розповсюдження) такий, що стверджувати, що середнє значення справді вище на рівні менш просто зліва, ніж у центрі.

Моє загальне враження, що я, мабуть, не просто обманював себе, тому що різні аспекти помірковано протистоять різноманітним викликам (згладжуванню, перетворенню, розбиттю на підгрупи, перестановці), які, як правило, затьмарюють їх, якби вони були просто шумом. З іншого боку, вказівки полягають у тому, що ефекти, хоча в цілому відповідають моєму початковому враженню, відносно слабкі, і може бути занадто багато, щоб стверджувати про будь-яку реальну зміну очікування, що рухається з лівого боку до центру.


1
Я поставив під сумнів одну відповідь, але ця, я впевнена, сказала, що знаходить речі, яких там немає
rvl

1
Я намагався змінити свій голос проти, але, мабуть, не можу. Тільки тому, що я дійсно не згоден з вашою відповіддю, це не означає, що це не сприяє дискусії. Я не впевнений, як використовувати голоси, що не мають права на голосування, і не маю на увазі нічого особистого. P
rvl

4
@Russ не турбуйся про голосування, це насправді не має значення, поза тим, що це сигналізує, що я повинен звернутись. Набагато важливіше розібратися, чому ми не погоджуємось (наскільки це взагалі ми робимо), ніж турбуватися про підроблені точки Інтернет. У вас є заперечення, про які варто обговорити, і я б із задоволенням заплатив у десять разів більше, ніж провів навіть цю коротку дискусію. Я закликаю вас оскаржувати мене щоразу, коли не погоджуєтесь, якщо ви скажете чому. Це мій шанс чогось навчитися.
Glen_b -Встановіть Моніку

1
@RussLenth ви можете скасувати пониження голосу (або повторне звернення), повторно натиснувши голос "за". Якщо ви не впевнені, де ваші голоси знаходяться під навітряним текстом над стрілкою вниз (або вгору), ви повідомте про це.
Олексій

4
+1 Я насправді робив багато цього аналізу, але не хотів надмірно поширювати свою відповідь на ці результати. Ви зробили чудову роботу, представивши її у чіткій, читальній та переконливій формі. Одне, що я робив на додаток, - це регресувати (насправді, згладжувати) x проти y (незважаючи на характеристику y як "залежного"): я думаю, що результат був корисним для оцінки нелінійності у відносинах таким чином, що є агностичним щодо того, чи y слід розглядати як одну або дві групи.
whuber

13

журналухграфік журналу (Y) проти X

І співвідношення:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

Кореляційний тест вказує на ймовірну негативну залежність. Я залишаюся не переконаний у будь-якій бімодальності (але також не переконаний, що вона відсутня).

Х|Y


2
Між іншим ... мені просто спало на думку, що прийняття перетворення журналу (Y) як залежного все ще еквівалентно пошуку нелінійного відношення ... журнал (Y) приємніше wrt залишків, ніж функція шарніра, з якою я грав моя відповідь ... але один із висновків схожий: взаємозв'язок між та XYХY=а+бХ

Дякую за цей залишковий сюжет, Русс. Це не запит, але я хотів би зазначити, що те, що мені виявило цікавість - і, можливо, має більшу цінність для дослідження GoF - це стосунки x як функції y, а не цього способу. Перегляд x залишків підказує деякі додаткові (можливо корисні) питання, які не були підняті раніше, такі як, чи могли б ми дізнатися щось за допомогою нелінійних репрезентацій x (так, ми можемо); чи багато чого можна сказати незалежно від гіпотези з двома популяціями (так, знову ж таки) та про надійність мого пристосування (це дуже надійно).
whuber

Ну, можливо, ви хочете зробити для цього залишковий сюжет. Я переходжу до інших речей.
rvl

5

Расс Лент цікавився, як виглядатиме графік, якби вісь Y була логарифмічною. Алексіс викреслив дані, тому легко побудувати графік на осі журналу:

введіть тут опис зображення

У масштабі журналу немає натяку на бімодальність чи тенденцію. Чи має значення масштаб журналу чи ні, залежить, звичайно, від деталей того, що представляють дані. Аналогічно, чи має сенс думати, що дані представляють вибірки з двох груп, як це говорить, залежить від деталей.


Додаток: На підставі коментарів нижче, ось переглянута версія:

введіть тут опис зображення


Я розмістив свій графік протягом декількох хвилин, коли Расс Лент розмістив його. Я не бачив його, або не розмістив би свого.
Гарві Мотульський

Я вважаю, що при оцінці результати (прямолінійної лінійної) регресії сильніші з log ( ).Y
Олексій

9
Ця графіка представляє цікавий приклад ефекту поганого вибору візуалізації: зменшуючи співвідношення сторін і розширюючи вісь y більш ніж удвічі, наскільки це потрібно, програмне забезпечення автоматично пригнічує візуальне враження від будь-якого вертикального розсіювання, утрудняючи глядача важке бачити багато чого. Ось чому хороша розвідка, хоча і керується графічним зображенням, повинна (а) використовувати відповідні методи візуалізації, які розкривають , а не придушують поведінку даних, та (б) підтримують їх додатковими аналізами (наприклад, показаними в публікації @ Glen_b) .
качан

Для діапазонів Y у питанні база журналу 2 була б більш простим вибором, щоб мати розумний діапазон значень для осі Y. Це також заважає верхньому діапазону від приємних значень 1 і 1000, які не відповідають даним.
Енді Ш

1

Ну, ви праві, відносини слабкі, але не нульові. Я б здогадався позитив. Однак, не здогадуйтесь, просто запустіть просту лінійну регресію (OLS регресія) і дізнайтеся! Там ви отримаєте нахил xxx, який підкаже вам, які стосунки. І так, у вас є інші люди, які можуть змінити результати. З цим можна впоратися. Ви можете використати відстань Кука або створити графік важеля, щоб оцінити вплив екслідерів на відносини.

Удачі


Що змушує вас думати, що вони справжні люди, а не DGP нелінійні?
абауман

Я гадаю, що це теж може бути. Але важко сказати, крапки так розкидані.
Хелгі Гурмундссон

Навіщо брати на себе лінійність з OLS? Непараметрична регресія FTW! :)
Олексій

1
@Alexis вірно підкреслює, що припущення, такі як лінійність, повинні бути виправдані, чи то теорією домену, чи то шляхом перевірки моделі. Однак я вважаю, що відверте вилучення інших людей, не ретельно враховуючи, чому такі значення виникають, є дуже поширеною помилкою в статистичному аналізі.
абауман

Так, залишків не можна видалити без хорошого обґрунтування, наприклад, неправильного значення. Але перетворення можуть допомогти скоригувати розподіл вартості для кращого пристосування та зменшити кількість видатків. І так, я погоджуюсь, я вважаю, що це досить часто видаляють залишків без виправданих причин.
Helgi Guðmundsson

1

Ви вже подали певну інтуїцію до свого питання, дивлячись на орієнтацію точок даних X / Y та їх розповсюдження. Коротше кажучи, ви праві.

У формальному відношенні орієнтація може називатися знаком кореляції, а дисперсія - дисперсією . Ці два посилання дадуть вам більше інформації про те, як інтерпретувати лінійну залежність між двома змінними.


0

Це домашня робота. Отже, відповідь на ваше запитання проста. Запустивши лінійну регресію Y на X, ви отримаєте щось подібне:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Отже, t-статистика є важливою для змінної X із 99% достовірністю. Отже, ви можете оголосити змінні такими, що мають певний зв'язок.

Це лінійно? Додайте змінну X2 = (середнє значення X (X)) ^ 2 та знову регресуйте.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

Коефіцієнт при X все ще значний, але X2 - ні. X2 являє собою нелінійність. Отже, ви заявляєте, що ці відносини представляються лінійними.

Сказане було для домашньої роботи.

У реальному житті все складніше. Уявіть, що це були дані про клас учнів. Y - жим лежачи у фунтах, X - час у хвилинах затримки дихання перед жимом. Я б запитав про стать студентів. Для задоволення, додати; s додати ще одну змінну, Z, і скажемо, що Z = 1 (дівчатка) для всіх Y <60, а Z = 0 (хлопчики), коли Y> = 60. Запустіть регресію за допомогою трьох змінних:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

Що сталося?! "Зв'язок" між X і Y зник! О, здається, відносини були хибними через заплутану змінну , стать.

У чому полягає мораль історії? Вам потрібно знати, що це за дані, щоб "пояснити" "відносини", або навіть встановити їх в першу чергу. У цьому випадку, коли мені кажуть, що дані про фізичну активність студентів, я негайно запитую їхню стать, і навіть не буду турбуватися аналізувати дані, не отримуючи гендерну змінну.

З іншого боку, якщо вас попросять "описати" сюжет розсипання, тоді все що завгодно. Кореляції, лінійні пристосування тощо. Для домашньої роботи перших двох етапів вище повинно бути достатньо: подивіться на коефіцієнт X (співвідношення), потім X ^ 2 (лінійність). Переконайтеся, що ви позначаєте змінну X (віднімаєте середнє значення).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.