Як я інтерпретую цей розсипчастий сюжет?


12

У мене є графік розсіяння, розмір вибірки якого дорівнює кількості людей по осі х і медіанна зарплата по осі y, я намагаюся з'ясувати, чи впливає розмір вибірки на медіану зарплати.

Це сюжет:

введіть тут опис зображення

Як я інтерпретую цей сюжет?


3
Якщо можете, я б запропонував працювати з перетворенням обох змінних. Якщо жодна змінна не має точних нулів, погляньте на шкалу журналу журналу
Glen_b -Встановити Моніку

@Glen_b Вибачте, я не знайомий з термінами, які ви заявили, лише переглянувши сюжет, чи можете ви встановити зв’язок між двома змінними? що я можу здогадатися, що для розміру вибірки до 1000 немає ніякого відношення, оскільки для одних і тих же значень розміру вибірки є декілька серединних значень. Для значень понад 1000 середня зарплата зменшується. Що ти думаєш ?
Те саме,

Я не бачу ясних доказів для цього, це здається мені досить плоским; якщо є чіткі зміни, можливо, це відбувається в нижній частині розміру вибірки. Чи є у вас дані чи лише зображення сюжету?
Glen_b -Встановити Моніку

4
Якщо ви бачите медіану як медіану n випадкових величин, то має сенс, що коливання медіани зменшується зі збільшенням розміру вибірки. Це пояснило б велике поширення в лівій частині сюжету.
JAD

2
Ваше твердження "для розміру вибірки до 1000 немає відношення, оскільки для одних і тих же значень розміру вибірки є декілька медіанних значень" є невірним.
Пітер Флом - Відновити Моніку

Відповіді:


9

"Дізнатися" означає, що ви вивчаєте дані. Офіційні тести були б зайвими та підозрілими. Натомість застосуйте стандартні методи дослідження даних (EDA), щоб виявити, що може бути в даних.

Ці стандартні методи включають ре-експресію , залишковий аналіз , надійні методи («три R» EDA) та згладжування даних, як описано Джоном Тукі в його класичній книзі EDA (1977). Як провести деякі з них, викладені в моєму посту на Box-Cox, як перетворення для незалежних змінних? і в лінійній регресії, коли доцільно використовувати журнал незалежної змінної замість фактичних значень? , серед іншого .

Підсумок полягає в тому, що багато чого можна побачити, змінивши осі журналу журналу (ефективно повторно виражаючи обидві змінні), згладжуючи дані не надто агресивно, а також перевіряючи залишки гладкого, щоб перевірити, що воно могло пропустити, як я проілюструю.

Ось дані, показані гладко, що - після вивчення декількох гладких з різним ступенем достовірності даним - здається хорошим компромісом між занадто великим і замалим згладжуванням. Він використовує відомий надійний метод Лосса (на нього не впливають сильно вертикальні точки).

Log-log розсип

Вертикальна сітка складається з кроків 10000. Гладка дозволяє запропонувати певні зміни в розмірі Grad_medianвибірки: вона, здається, зменшується, коли розміри вибірки наближаються до 1000. (Кінці гладкої не є надійними - особливо це стосується невеликих зразків, де очікується, що похибка вибірки буде порівняно великою - так що не Не читаю в них занадто багато.) Таке враження справжнього падіння підтримується (дуже грубими) діапазонами довіри, які малює програмне забезпечення навколо гладкого: його "хитання" більше ширини смуг.

-0,220%

Нас цікавить (а) чи існують додаткові шаблони змін у міру зміни розміру вибірки та (b) чи умовно розподілені відповіді - вертикальні розподіли точкових позицій - правдоподібно подібні для всіх значень розміру вибірки, або чи може змінитися якийсь аспект із них (наприклад, їх поширення чи симетрія).

! [Малюнок 2 Сюжет залишків

0,0

Отже, цей простий підсумок:

середня зарплата приблизно на 10 000 нижче для розмірів вибірки близько 1000

адекватно фіксує зв’язки, що з’являються у даних, і, здається, є рівномірним у всіх основних категоріях. Чи важливо це - тобто чи протистоять йому, коли стикаються з додатковими даними - можна оцінити лише шляхом збору цих додаткових даних.


Для тих, хто хотів би перевірити цю роботу або взяти її далі, ось Rкод.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_b пропонує вам взяти логарифм sample_size та медіану зарплати, щоб побачити, чи має сенс зміна даних.

Я не знаю, що я погодився б з вашою думкою, що середня зарплата зменшується, коли розмір вибірки підвищиться вище 1000. Я б більше схилявся сказати, що взагалі немає взаємин. Чи передбачає ваша теорія, що мають бути стосунки?

Ще один спосіб оцінити можливий взаємозв'язок - це встановлення регресійної лінії до даних. Крім того, ви також можете використовувати криву низьких показників. Накресліть обидва рядки для своїх даних і подивіться, чи можна щось дражнити (проте, я сумніваюся, є щось занадто суттєве).


3
Розсіювач дуже схожий на ділянку воронки, що використовується в метааналізах. Дивіться аналогічний приклад . Накреслення смуг воронки чіткіше покаже, чи є стосунки, у цьому прикладі може бути дещо позитивне.
Енді Ш

6

Я також погоджуюся, що стосунків немає. Я відтворив ваш оригінальний графік розкидання (ліворуч) і зробив графік розсіювання журналу журналу, запропонований glen_b (праворуч).

введіть тут опис зображення

Схоже, жодного стосунку немає. Кореляція між перетвореними журналом даними є слабкою (Пірсон R = -.13) та незначною (р = .09). Залежно від того, скільки додаткової інформації у вас є, можливо, є причина бачити слабку негативну кореляцію, але це здається розтяжкою. Я здогадуюсь, що будь-який очевидний зразок, який ви бачите, - це той самий ефект, який бачите тут .

R=0,0022p=0,98


Дякуємо, що подивилися на співвідношення між середньою мірою та розміром вибірки; Мене глибоко спантеличила різниця між числами!
famargar

0

Спроба лінійної регресії навчить вас чомусь щодо цього відношення, як це запропоновано в першій відповіді. Оскільки, схоже, ви використовуєте python plus matplotlib для цього сюжету, ви знаходитесь на одному рядку коду від рішення.

Ви можете використовувати спільну теплоту для новонароджених, яка також відображатиме лінійну лінію регресії, коефіцієнт кореляції Пірсона та його p-значення:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

введіть тут опис зображення

як бачите, кореляції немає. Переглядаючи цей останній сюжет, здається, що перетворення журналу x-змінної було б корисним. Давайте спробуємо:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

введіть тут опис зображення

Ви чітко бачите, що - перетворення журналу чи ні - кореляція невелика, і обидва значення p-значення та довірчі інтервали говорять, що це не має статистичного значення.


3
Вказівки на сильно перекошені умовні розподіли свідчать, що це не гарний підхід. Коли ви також помітите, що косості розподілу вибірки за розміром вибірки викличуть кілька найбільших розмірів вибірки для контролю появи тенденції регресії, ви побачите, чому інші рекомендують попередні перетворення даних.
whuber

1
Я не здогадуюсь і не міркую: сюжет у питанні чітко показує ці характеристики. Також дивіться сюжети, створені Р. Грегом Стейсі , який - застосовуючи запропоновані перетворення журналу журналів - демонструє, що вони досягають.
whuber

Я щойно знайшов дані та зробив дослідження сам - будь ласка, дивіться оновлену відповідь.
famargar

Ваше дослідження піддалося двом проблемам, які я зазначив: поява «невідповідної кореляції» не є в значній мірі перекошеною умовною реакцією та важелем для високих регресорних значень. Зокрема, ні встановлена ​​лінія, ні її смуги помилок не є надійними.
whuber

Будь ласка, подивіться сюжет, який я щойно додав; Сподіваюся, я нічого не пропускаю в цій останній ітерації.
famargar

-1

Цей графік працює як демонстрація центральної граничної теореми, де мінливість між зразками зменшується зі збільшенням розміру вибірки. Це також форма, яку можна було б очікувати при сильно перекошеній змінній, як зарплата.


3
Це не незалежні вибірки від звичайної сукупності. Це робить актуальність CLT досить проблематичною.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.