У мене є графік розсіяння, розмір вибірки якого дорівнює кількості людей по осі х і медіанна зарплата по осі y, я намагаюся з'ясувати, чи впливає розмір вибірки на медіану зарплати.
Це сюжет:
Як я інтерпретую цей сюжет?
У мене є графік розсіяння, розмір вибірки якого дорівнює кількості людей по осі х і медіанна зарплата по осі y, я намагаюся з'ясувати, чи впливає розмір вибірки на медіану зарплати.
Це сюжет:
Як я інтерпретую цей сюжет?
Відповіді:
"Дізнатися" означає, що ви вивчаєте дані. Офіційні тести були б зайвими та підозрілими. Натомість застосуйте стандартні методи дослідження даних (EDA), щоб виявити, що може бути в даних.
Ці стандартні методи включають ре-експресію , залишковий аналіз , надійні методи («три R» EDA) та згладжування даних, як описано Джоном Тукі в його класичній книзі EDA (1977). Як провести деякі з них, викладені в моєму посту на Box-Cox, як перетворення для незалежних змінних? і в лінійній регресії, коли доцільно використовувати журнал незалежної змінної замість фактичних значень? , серед іншого .
Підсумок полягає в тому, що багато чого можна побачити, змінивши осі журналу журналу (ефективно повторно виражаючи обидві змінні), згладжуючи дані не надто агресивно, а також перевіряючи залишки гладкого, щоб перевірити, що воно могло пропустити, як я проілюструю.
Ось дані, показані гладко, що - після вивчення декількох гладких з різним ступенем достовірності даним - здається хорошим компромісом між занадто великим і замалим згладжуванням. Він використовує відомий надійний метод Лосса (на нього не впливають сильно вертикальні точки).
Вертикальна сітка складається з кроків 10000. Гладка дозволяє запропонувати певні зміни в розмірі Grad_median
вибірки: вона, здається, зменшується, коли розміри вибірки наближаються до 1000. (Кінці гладкої не є надійними - особливо це стосується невеликих зразків, де очікується, що похибка вибірки буде порівняно великою - так що не Не читаю в них занадто багато.) Таке враження справжнього падіння підтримується (дуже грубими) діапазонами довіри, які малює програмне забезпечення навколо гладкого: його "хитання" більше ширини смуг.
Нас цікавить (а) чи існують додаткові шаблони змін у міру зміни розміру вибірки та (b) чи умовно розподілені відповіді - вертикальні розподіли точкових позицій - правдоподібно подібні для всіх значень розміру вибірки, або чи може змінитися якийсь аспект із них (наприклад, їх поширення чи симетрія).
Отже, цей простий підсумок:
середня зарплата приблизно на 10 000 нижче для розмірів вибірки близько 1000
адекватно фіксує зв’язки, що з’являються у даних, і, здається, є рівномірним у всіх основних категоріях. Чи важливо це - тобто чи протистоять йому, коли стикаються з додатковими даними - можна оцінити лише шляхом збору цих додаткових даних.
Для тих, хто хотів би перевірити цю роботу або взяти її далі, ось R
код.
library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual :=
residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) +
ggtitle("EDA of Median Salary vs. Sample Size",
paste("Span of smooth is", signif(span, 2)))
print(g)
span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() +
ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
paste("Span of smooth is", signif(span, 2)))
print(g.r)
Glen_b пропонує вам взяти логарифм sample_size та медіану зарплати, щоб побачити, чи має сенс зміна даних.
Я не знаю, що я погодився б з вашою думкою, що середня зарплата зменшується, коли розмір вибірки підвищиться вище 1000. Я б більше схилявся сказати, що взагалі немає взаємин. Чи передбачає ваша теорія, що мають бути стосунки?
Ще один спосіб оцінити можливий взаємозв'язок - це встановлення регресійної лінії до даних. Крім того, ви також можете використовувати криву низьких показників. Накресліть обидва рядки для своїх даних і подивіться, чи можна щось дражнити (проте, я сумніваюся, є щось занадто суттєве).
Я також погоджуюся, що стосунків немає. Я відтворив ваш оригінальний графік розкидання (ліворуч) і зробив графік розсіювання журналу журналу, запропонований glen_b (праворуч).
Схоже, жодного стосунку немає. Кореляція між перетвореними журналом даними є слабкою (Пірсон R = -.13) та незначною (р = .09). Залежно від того, скільки додаткової інформації у вас є, можливо, є причина бачити слабку негативну кореляцію, але це здається розтяжкою. Я здогадуюсь, що будь-який очевидний зразок, який ви бачите, - це той самий ефект, який бачите тут .
Спроба лінійної регресії навчить вас чомусь щодо цього відношення, як це запропоновано в першій відповіді. Оскільки, схоже, ви використовуєте python plus matplotlib для цього сюжету, ви знаходитесь на одному рядку коду від рішення.
Ви можете використовувати спільну теплоту для новонароджених, яка також відображатиме лінійну лінію регресії, коефіцієнт кореляції Пірсона та його p-значення:
sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")
як бачите, кореляції немає. Переглядаючи цей останній сюжет, здається, що перетворення журналу x-змінної було б корисним. Давайте спробуємо:
df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")
Ви чітко бачите, що - перетворення журналу чи ні - кореляція невелика, і обидва значення p-значення та довірчі інтервали говорять, що це не має статистичного значення.
Цей графік працює як демонстрація центральної граничної теореми, де мінливість між зразками зменшується зі збільшенням розміру вибірки. Це також форма, яку можна було б очікувати при сильно перекошеній змінній, як зарплата.