Який взаємозв'язок між та у наступному сюжеті? На мій погляд, є негативні лінійні відносини, але оскільки у нас багато людей, що пережили, вони дуже слабкі. Чи правий я? Я хочу навчитися пояснювати, як можна пояснити розсіювачі.X
Який взаємозв'язок між та у наступному сюжеті? На мій погляд, є негативні лінійні відносини, але оскільки у нас багато людей, що пережили, вони дуже слабкі. Чи правий я? Я хочу навчитися пояснювати, як можна пояснити розсіювачі.X
Відповіді:
Питання стосується декількох понять: як оцінювати дані, подані лише у вигляді розсіювача, як узагальнити розсіювач, і чи (і в якій мірі) співвідношення виглядає лінійним. Візьмемо їх по порядку.
Використовуйте принципи розвідувального аналізу даних (EDA). Вони (принаймні спочатку, коли вони були розроблені для використання з олівцем і папером) підкреслюють прості, прості в обчисленні, надійні підсумки даних. Один з найпростіших видів резюме заснований на позиціях всередині набору чисел, таких як середнє значення, яке описує "типове" значення. Середні показники легко оцінити надійно за допомогою графіки.
Розсіювачі демонструють пари чисел. Перша з кожної пари (як зображено на горизонтальній осі) дає набір одиничних чисел, які ми могли б підсумувати окремо.
У цьому конкретному розсіювальному шарі, здається ,, що значення y лежать у двох майже повністю окремих групах : значення вище вгорі та значення, що дорівнює або менше 60 внизу. (Це враження підтверджується малюванням гістограми значень у, яка різко бімодальна, але це було б багато роботи на цьому етапі.) Я пропоную скептикам примружитися до розсіювача. Коли я це роблю - використовуючи гауссова розмитість Гаусса з великим радіусом (тобто стандартний швидкий результат обробки зображень) крапок у розсіювачі, я бачу це:
Дві групи - верхня і нижня - досить очевидні. (Верхня група набагато легша, ніж нижня, тому що містить набагато менше точок.)
Відповідно, підсумовуємо групи у-значень окремо. Я зроблю це, малюючи горизонтальні лінії у медіанів двох груп. Для того, щоб підкреслити враження від даних і показати, що ми не робимо ніяких обчислень, я (а) видалив усі прикраси, як осі та лінії сітки, і (b) розмив точки. Мало інформації про шаблони в даних втрачається таким чином, "примружившись" до графіки:
Так само я намагався позначити медіани значень x вертикальними відрізками рядків. У верхній групі (червоні лінії) ви можете перевірити - порахувавши краплі - що ці лінії насправді розділяють групу на дві рівні половинки, як горизонтально, так і вертикально. У нижчій групі (сині лінії) я лише візуально оцінив позиції, фактично не рахуючи.
Точки перетину є центрами двох груп. Одним чудовим підсумком співвідношення між значеннями x та y було б повідомлення про ці центральні позиції. Потім хотілося б доповнити цей підсумок описом того, наскільки дані поширюються в кожній групі - ліворуч і праворуч, вгорі та внизу - навколо їх центрів. Для стислості я цього робити не буду, але зауважте, що (орієнтовно) довжини накреслених відрізків рядків відображають загальний розкид кожної групи.
Нарешті я намалював (пунктирну) лінію, що з'єднує два центри. Це розумна лінія регресії. Це хороший опис даних? Звичайно, ні: подивіться, як розповсюджуються дані навколо цього рядка. Це навіть свідчення лінійності? Це мало актуально, оскільки лінійний опис настільки поганий. Тим не менше, оскільки це питання, яке стоїть перед нами, давайте вирішимо його.
Зв'язок є лінійним у статистичному сенсі, коли або значення y змінюються врівноваженим випадковим способом навколо лінії, або видно, що значення x змінюються врівноваженим випадковим способом навколо лінії (або обох).
Перше, мабуть, тут не так: оскільки значення y, здається, поділяються на дві групи, їх зміна ніколи не буде виглядати врівноваженою в сенсі того, що вони приблизно симетрично розподілені над або під лінією. (Це негайно виключає можливість скидання даних у пакет лінійної регресії та виконання найменших квадратів, відповідніх y проти x: відповіді не були би актуальними.)
Як щодо варіації x? Це більш правдоподібно: на кожній висоті на ділянці горизонтальний розкид точок навколо пунктирної лінії досить врівноважений. Поширення в цьому розкид , здається, бути трохи більше при більш низьких висотах (низькі значень у), але , можливо , це тому , що є багато більше очок там. (Чим більше випадкових даних у вас є, тим ширшими будуть їхні крайні значення.)
Більше того, під час сканування зверху вниз немає місця, де горизонтальний розкид навколо лінії регресії сильно не врівноважений: це було б свідченням нелінійності. (Ну, може бути, приблизно y = 50 або близько цього може бути занадто багато великих значень x. Цей тонкий ефект може бути сприйнятий як додатковий доказ розбиття даних на дві групи навколо значення y = 60.)
Ми це бачили
Має сенс розглядати х як лінійну функцію y плюс деяку "хорошу" випадкову варіацію.
Це НЕ має сенс для подання у у вигляді лінійної функції від ї плюс випадкових змін.
Лінію регресії можна оцінити, розділивши дані на групу високих значень y та групу низьких значень y, знайти центри обох груп за допомогою медіанів та з'єднати ці центри.
Отримана лінія має нахил вниз, що вказує на негативну лінійну залежність.
Сильних відступів від лінійності немає.
Тим не менше, оскільки розкиди значень x навколо лінії все ще великі (порівняно із загальним поширенням значень x для початку), нам доведеться охарактеризувати цей негативний лінійний зв’язок як "дуже слабкий".
Ці дані можуть бути більш корисними для опису даних як формування двох хмари овальної форми (одна для y вище 60, а друга для нижчих значень y). У межах кожної хмари між х і у є мало виявлених відносин. Центри хмар поблизу (0,29, 90) та (0,38, 30). Хмари мають порівнянне поширення, але верхня хмара має набагато менше даних, ніж нижня (можливо, на 20% більше).
Два з цих висновків підтверджують зроблені в самому питанні, що існує слабкий негативний зв’язок. Інші доповнюють і підтримують ці висновки.
Один із висновків, зроблених у питанні, яке, здається, не відповідає, - це твердження про те, що існують "люди, що не впадають у життя". При більш ретельному розгляді (як накреслено нижче) не вдасться виявити жодних окремих пунктів, а то й невеликих груп балів, які справедливо могли б вважатись сторонніми. Після досить тривалого аналізу можна звернути увагу на дві точки біля середнього правого або одну точку в нижньому лівому куті, але навіть вони не будуть дуже сильно змінювати оцінку даних, незалежно від того, чи вважаються вони чи ні зовнішній.
Набагато більше можна сказати. Наступним кроком буде оцінка поширення цих хмар. Взаємозв'язки між x і y в межах кожної з двох хмар можна оцінювати окремо, використовуючи ті ж методи, що показані тут. Незначна асиметрія нижньої хмари (більше даних, здається, з’являється при найменших значеннях y), можна оцінити і навіть відкоригувати шляхом повторного вираження значень y (квадратний корінь може добре працювати). На цьому етапі було б доцільно шукати зовнішні дані, оскільки в цей момент опис міститиме інформацію про типові значення даних, а також про їх поширення; Останнє (за визначенням) було б занадто далеко від середини, щоб пояснити його спостережуваною кількістю поширення.
Жодна з цих робіт, яка є досить кількісною, не вимагає набагато більше, ніж пошук середніх груп даних та проведення простих обчислень з ними, а тому може бути виконано швидко та точно навіть тоді, коли дані доступні лише у графічній формі. Кожен результат, який повідомляється тут, включаючи кількісні значення, легко можна знайти протягом декількох секунд за допомогою системи відображення (наприклад, копія та олівець :-)), яка дозволяє робити легкі позначки на верхній частині графіки.
Давай розважимось!
Перш за все, я Подряпини на дані з вашого графіка.
Оцінки коефіцієнта:
(Червона лінія - це просто лінійна регресія ln (Y) на X.)
Ось мої 2 ¢ 1,5 ¢. Для мене найвидатнішою особливістю є те, що дані різко зупиняються і «накопичуються» внизу діапазону Y. Я бачу два (потенційні) «кластери» і загальну негативну асоціацію, але найбільш помітними рисами є (потенційний) ефект підлоги та той факт, що верхній кластер із низькою щільністю поширюється лише на частину діапазону X.
Оскільки «кластери» є невиразно біваріантними нормальними, параметрична модель нормальної суміші може бути цікавою для спробу. Використовуючи дані @Alexis, я виявляю, що три кластери оптимізують BIC. "Ефект підлоги" високої щільності вибирається як третій кластер. Код наступним чином:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
Тепер, що ми можемо зробити з цього? Я не думаю, що Mclust
це просто розпізнавання людського зразка. (В той час, як моє прочитання розсіювача може бути.) З іншого боку, не виникає сумніву, що це пост-хок . Я побачив, що мені здається цікавим зразком, і вирішив це перевірити. Алгоритм щось знаходить, але потім я лише перевірив, що я вважав, що може бути там, щоб великий палець точно був на шкалі. Іноді можна розробити стратегію, щоб пом'якшити це (див. Чудову відповідь @ whuber тут ), але я не маю уявлення, як іти таким процесом у таких випадках. Як результат, я приймаю ці результати з великою кількістю солі (я робив подібні речі досить часто, щоб хтось пропускав цілий шейкер). Це дає мені певний матеріал, щоб подумати і обговорити з моїм клієнтом, коли ми зустрінемось далі. Що це за дані? Чи має сенс, що може бути ефект підлоги? Чи було б сенсом, що можуть бути різні групи? Наскільки значущим / дивовижним / цікавим / важливим було б, якби вони були справжніми? Чи існують незалежні дані / чи могли б ми їх зручно отримати для чесного перевірки цих можливостей? І т.д.
Дозвольте описати те, що я бачу, як тільки я дивлюсь на це:
Це те, що я бачив, ґрунтуючись на чисто "очному" огляді. Трохи розігравшись у чомусь на зразок основної програми маніпулювання зображеннями (на зразок тієї, з якою я намалював лінії), ми могли б почати розбирати кілька точніших цифр. Якщо ми оцифруємо дані (що досить просто за допомогою пристойних інструментів, якщо іноді трохи нудно виправитись), то ми можемо провести більш досконалий аналіз такого враження.
Цей вид дослідницького аналізу може призвести до важливих питань (іноді тих, хто дивує людину, яка має дані, але лише показав сюжет), але ми повинні трохи подбати про те, наскільки наші моделі були обрані такими перевірками - якщо ми застосовуємо моделі, вибрані на основі появи ділянки, а потім оцінюємо ці моделі за одними і тими ж даними, ми будемо стикатися з тими ж проблемами, які ми отримуємо, коли використовуємо більш формальний вибір і оцінку моделі на одних і тих же даних. [Це взагалі не заперечує важливості дослідницького аналізу - просто ми повинні бути обережними щодо наслідків його виконання, не зважаючи на те, як ми його робимо. ]
Відповідь на коментарі Руса:
[пізніше редагування: Для уточнення - я в цілому погоджуюся з критикою Русса, сприйнятою як загальна обережність, і, безумовно, є певна можливість, яку я бачив більше, ніж є насправді. Я планую повернутися і відредагувати їх у більш обширному коментарі до помилкових моделей, які ми зазвичай ототожнюємо оком, і способів, як ми можемо почати уникати найгіршого. Я вірю, що я також зможу додати деякі обґрунтування того, чому я вважаю, що це, мабуть, не просто помилково в даному конкретному випадку (наприклад, через регресограму або ядро 0-порядку гладко, хоча, звичайно, немає більше даних для перевірки, є лише поки що це може піти; наприклад, якщо наш зразок непредставницький, навіть перекомпонування лише отримує нас поки що.]
Я повністю погоджуюся, що ми маємо тенденцію бачити помилкові зразки; це я часто зазначаю як тут, так і деінде.
Одне, що я пропоную, наприклад, переглядаючи залишкові сюжети або QQ-сюжети, - це генерувати безліч сюжетів, де відома ситуація (як це має бути, так і де припущення не дотримуються), щоб отримати чітке уявлення про те, якою має бути модель. ігнорується.
Ось приклад, коли сюжет QQ розміщується серед 24 інших (які задовольняють припущення), щоб ми побачили, наскільки сюжет незвичний. Цей вид вправ важливий, тому що допомагає нам не дурити себе, інтерпретуючи кожне маленьке хитання, більшість з яких буде простим шумом.
Я часто зазначаю, що якщо ви зможете змінити враження, охопивши кілька балів, ми можемо покластися на враження, що створюються нічим іншим, як шумом.
[Однак, коли це видно з багатьох точок, а не з кількох, важче стверджувати, що його там немає.]
Коли ми не маємо більше даних для перевірки, ми можемо принаймні подивитися, чи має тенденцію пережити повторне розміщення (завантажуйте двовимірний розподіл і дивіться, чи майже завжди він присутній), чи інші маніпуляції, коли враження не повинні бути очевидними якщо це простий шум.
1) Ось один із способів перевірити, чи є видима бімодальність не просто косою плюс шум - чи відображається вона в оцінці щільності ядра? Чи все ще видно, якщо ми побудуємо оцінки щільності ядра під різними перетвореннями? Тут я перетворюю його на більшу симетрію, на 85% пропускної здатності за замовчуванням (оскільки ми намагаємось визначити відносно невеликий режим, і пропускна здатність за замовчуванням не оптимізована для цієї задачі):
2) Ось ще один основний спосіб зрозуміти, чи є це більше, ніж просто "шум":
Крок 1: виконайте кластеризацію на Y
Точки з крапками були згруповані по-різному від кластера "все в одному наборі" в попередньому сюжеті. Я зроблю ще трохи пізніше, але, схоже, можливо, поруч із цим положенням може бути горизонтальний "розкол".
3) Редагувати: Ось регресограма для відрізків шириною 0,1 (виключаючи самі кінці, як я запропонував раніше):
Це цілком відповідає первісному враженню від сюжету; це не доводить, що моє міркування було правильним, але мої висновки дійшли до того ж результату, що і регресограма.
(Наступне, що слід спробувати, це оцінювач Надаяра-Уотсон. Тоді я можу побачити, як це відбувається під час перестановки, якщо встигну.)
4) Пізніше редагуйте:
Nadarya-Watson, ядро Гаусса, пропускна здатність 0,15:
Знову ж таки, це напрочуд відповідає моєму початковому враженню. Ось оцінювачі NW на основі десяти повторних прикладів завантаження:
Широка закономірність є, хоча пара повторних прикладів не так чітко відповідає опису, що базується на всіх даних. Ми бачимо, що випадок рівня ліворуч є менш певним, ніж справа - рівень шуму (частково від небагатьох спостережень, частково від широкого розповсюдження) такий, що стверджувати, що середнє значення справді вище на рівні менш просто зліва, ніж у центрі.
Моє загальне враження, що я, мабуть, не просто обманював себе, тому що різні аспекти помірковано протистоять різноманітним викликам (згладжуванню, перетворенню, розбиттю на підгрупи, перестановці), які, як правило, затьмарюють їх, якби вони були просто шумом. З іншого боку, вказівки полягають у тому, що ефекти, хоча в цілому відповідають моєму початковому враженню, відносно слабкі, і може бути занадто багато, щоб стверджувати про будь-яку реальну зміну очікування, що рухається з лівого боку до центру.
І співвідношення:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
Кореляційний тест вказує на ймовірну негативну залежність. Я залишаюся не переконаний у будь-якій бімодальності (але також не переконаний, що вона відсутня).
Расс Лент цікавився, як виглядатиме графік, якби вісь Y була логарифмічною. Алексіс викреслив дані, тому легко побудувати графік на осі журналу:
У масштабі журналу немає натяку на бімодальність чи тенденцію. Чи має значення масштаб журналу чи ні, залежить, звичайно, від деталей того, що представляють дані. Аналогічно, чи має сенс думати, що дані представляють вибірки з двох груп, як це говорить, залежить від деталей.
Додаток: На підставі коментарів нижче, ось переглянута версія:
Ну, ви праві, відносини слабкі, але не нульові. Я б здогадався позитив. Однак, не здогадуйтесь, просто запустіть просту лінійну регресію (OLS регресія) і дізнайтеся! Там ви отримаєте нахил xxx, який підкаже вам, які стосунки. І так, у вас є інші люди, які можуть змінити результати. З цим можна впоратися. Ви можете використати відстань Кука або створити графік важеля, щоб оцінити вплив екслідерів на відносини.
Удачі
Ви вже подали певну інтуїцію до свого питання, дивлячись на орієнтацію точок даних X / Y та їх розповсюдження. Коротше кажучи, ви праві.
У формальному відношенні орієнтація може називатися знаком кореляції, а дисперсія - дисперсією . Ці два посилання дадуть вам більше інформації про те, як інтерпретувати лінійну залежність між двома змінними.
Це домашня робота. Отже, відповідь на ваше запитання проста. Запустивши лінійну регресію Y на X, ви отримаєте щось подібне:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
Отже, t-статистика є важливою для змінної X із 99% достовірністю. Отже, ви можете оголосити змінні такими, що мають певний зв'язок.
Це лінійно? Додайте змінну X2 = (середнє значення X (X)) ^ 2 та знову регресуйте.
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
Коефіцієнт при X все ще значний, але X2 - ні. X2 являє собою нелінійність. Отже, ви заявляєте, що ці відносини представляються лінійними.
Сказане було для домашньої роботи.
У реальному житті все складніше. Уявіть, що це були дані про клас учнів. Y - жим лежачи у фунтах, X - час у хвилинах затримки дихання перед жимом. Я б запитав про стать студентів. Для задоволення, додати; s додати ще одну змінну, Z, і скажемо, що Z = 1 (дівчатка) для всіх Y <60, а Z = 0 (хлопчики), коли Y> = 60. Запустіть регресію за допомогою трьох змінних:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
Що сталося?! "Зв'язок" між X і Y зник! О, здається, відносини були хибними через заплутану змінну , стать.
У чому полягає мораль історії? Вам потрібно знати, що це за дані, щоб "пояснити" "відносини", або навіть встановити їх в першу чергу. У цьому випадку, коли мені кажуть, що дані про фізичну активність студентів, я негайно запитую їхню стать, і навіть не буду турбуватися аналізувати дані, не отримуючи гендерну змінну.
З іншого боку, якщо вас попросять "описати" сюжет розсипання, тоді все що завгодно. Кореляції, лінійні пристосування тощо. Для домашньої роботи перших двох етапів вище повинно бути достатньо: подивіться на коефіцієнт X (співвідношення), потім X ^ 2 (лінійність). Переконайтеся, що ви позначаєте змінну X (віднімаєте середнє значення).