Як обговорити розсіювач з декількома лініями, що виникають?


11

Ми виміряли дві змінні, і розсіювач, здається, пропонує декілька "лінійних" моделей. Чи є спосіб спробувати вигнати ці моделі? Ідентифікація інших незалежних змінних виявилася складною.

Розсіювання двох змінних

Обидві змінні сильно косо ліворуч (у напрямку невеликої кількості), це очікуване поширення в нашому домені. Інтенсивність точки являє собою кількість точок даних (за шкалою ) при цьому . log10<x,y>

Як варіант, чи існує спосіб кластеризації точок?

У нашому полі стверджується, що ці дві змінні лінійно співвідносяться. Ми намагаємось зрозуміти / пояснити, чому це не так у наших даних.

(зверніть увагу, у нас є 17М точок даних)

оновлення: дякую за всі відповіді, ось деякі запитувані роз'яснення:

  • Обидві змінні є лише цілими числами, що пояснює деякі зразки в розсипці журналу.
  • На щастя, за визначенням мінімальне значення обох змінних дорівнює 1.
  • 7М балів знаходяться на рівні ("пояснюється" лівою косою інформацією)<3,1>

Ось запитувані сюжети:

журнал розсипання журналу: Scatterplot в журналі журналу

(пробіли зумовлені цілими значеннями)

log-log polar: полярні координати θ=y

Гістограма співвідношення: Гістограма співвідношення

Частота знаходиться в масштабі журналу, оскільки бар - це 7М балів, і приховає інші смуги.1/3


2
Як виглядає цей сюжет у полярних координатах ? (Можливо, доцільно спочатку взяти логарифми і (плюс, якщо потрібно, невеликий початковий зсув, щоб уникнути нулів).) Оскільки всі рядки видаються випромінюючими від початку, то можливо - особливо, якщо варіація навколо рядків з'являється гомосептичне - тоді все, що вам потрібно зробити, - це згрупувати точки у розмірі . (r,θ)XYθθ
whuber

Чи є співвідношення, що беруть участь у отриманні Y і X? Чи задіяні змінні, які приймають лише окремі значення? Як це виглядає як журнал-журнал?
Glen_b -Встановити Моніку

1
@whuber & Glen_b Я додав сюжети з тими перетвореннями.
Дейві Лендман

Дякую, Дейві. Мені слід було б зрозуміти точку використання полярних координат: побудувавши на горизонтальній осі та на вертикальній осі, будь-які радіальні лінії на початковій ділянці будуть виходити як ідеально горизонтальні лінії. Вони не тільки можуть бути легко виявлені візуально (наші очі мають вбудовану обробку для розпізнавання горизонтальних лінійних ознак). Після виявлення вони можуть бути оброблені за допомогою кластерного аналізу, заснованого виключно на . Ваш полярний графік "log-log", застосовуючи нелінійні перетворення до координат (особливо ), знищує ці приємні властивості. rθθθ
whuber

@whuber Я оновив сюжет, поставив тету на у, це ви маєте на увазі рядки?
Деві Лендман

Відповіді:


7

У вас можуть бути артефакти, що виникають із-за обмежень на те, що можливо фізично або на те, що записано (найпростіше, лише цілі числа). Цілком анонімні і не дають жодних впевнених здогадок про те, як це виникає, але виглядає так, ніби деякі віддають перевагу, і я, безумовно, дивлюсь на розподіл цього співвідношення. Крім того, якщо це так, на мій досвід, не корисно шукати окремі моделі, якщо ви насправді не змішуєте зовсім інші ситуації. (Для "фізично" читайте "біологічно" або будь-який прислівник має сенс.)YXY/X

Чим більше я дивлюся на це, тим більше я здогадуюсь, що такі рядки, як або , очевидні для цілого , тому що самі значення є цілими числами.X/kkXk

Інший, але можливо пов'язаний з цим момент, полягає в тому, що мені ці дані кричать за перетвореннями. Якщо вони всі позитивні, вказуються логарифми. Я боюся, що у вас є нулі, і в цьому випадку те, що робити, є відкритим для обговорення. Наприклад, рядок у може бути відгаданий у вашому графіку. Якщо є нулі, деякі клянуться в або в корінь куба. Що б не допомогло вам чіткіше бачити візерунки, це захист.Y=0log(Y+constant)

Точка термінології: хиткість у статистиці описується з посиланням на хвостик, який є більш розтягнутим. Ви можете розглядати цю термінологію як відсталу. Тут обидві змінні перекошені на високі значення, або позитивно, або вправо.

ОНОВЛЕННЯ: Дякую за додаткові графіки, які є найбільш корисними. Майже всі здогадки видаються підтвердженими. (Нижній рядок, так би мовити, , а не ) Смуги - це артефакти або вторинні ефекти використання цілих чисел, які цілком можуть бути єдиним або, принаймні, найбільш практичним способом вимірювання того, що ви є вимірювальними (щодо яких питання залишається невмілим). Журнал журналу та інші ділянки виявляють дискретність. Тож незважаючи на розсуд, дискретність підтверджується. Існують яскраво виражені режими (піки розподілу) для співвідношень 1/4, 1/2, 1/1 та 2/1.Y=1Y=0

Як і раніше, я б не радив моделювати різні смуги по-різному, не маючи наукових підстав розрізняти їх або розглядати їх окремо. Ви повинні просто в середньому перевищувати те, що у вас є. (Можливо, відомі методи з подібними даними для придушення дискретності. Якщо люди у вашому полі звичайно вимірюють мільйони балів за кожен сюжет, важко повірити, що цього раніше не бачили.)

Кореляція, безумовно, повинна бути позитивною. Крім формального тесту на значущість, який тут був би абсолютно марним, оскільки хвилинні кореляції будуть кваліфіковані як такі значні щодо цього розміру вибірки, чи буде він оголошений сильним - це питання очікувань та стандартів у вашій галузі. Кількісне порівняння співвідношення з результатами інших - це шлях.

Деталь: Скісність все ще описується неправильно, відповідно до статистичної конвенції. Ці змінні перекошені вправо; цей жаргон підходить, дивлячись на гістограму з горизонтальною віссю величини і зазначаючи, що косисть названа довшим хвостом, а не концентрацією з більшими значеннями.


Я додав графік журналу журналів і намагався бути більш точним щодо косості.
Дейві Лендман

4

Я думаю, що інструмент, який ви хочете, називається переключенням регресії. Ідея полягає в тому, що існує кілька регресійних ліній, і кожна точка даних присвоюється одній з них. Наприклад, рівнянням першої регресійної лінії було б: Рівняння лінії регресії було б: Усього існує, наприклад, різних ліній регресії. Для будь-якої заданої точки даних ми можемо побачити лише одну з регресійних ліній. Таким чином, має бути якийсь механізм для визначення того, яку лінію регресії ми бачимо для кожної точки. Найпростіший механізм - це просто багаточленний розподіл. Тобто ми бачимо

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmth лінія регресії з ймовірністю , де . pmmpm=1

Модель зазвичай оцінюється за максимальною вірогідністю. Якщо припустити, що розподілено , функція ймовірності, яку ви максимізували б, буде: Функція є стандартною нормальною щільністю. Ви максимізуєте це в параметрах урахуванням обмежень . Зазвичай це дещо хитра проблема максимізації, якщо ви збираєтесь використовувати методи квазі-Ньютона для її вирішення. Ви не можете просто запустити всі та на нулі таϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm1Mαβ

ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

5M+15M1δ,γ

M


2
M

2

Я спостерігав подібну поведінку в деяких своїх наборах даних. У моєму випадку декілька різних ліній були наслідком помилки квантування в одному з моїх алгоритмів обробки.

Тобто, ми дивимося на графіки розкидання оброблюваних даних, і алгоритм обробки мав деякі ефекти квантування, що спричинило залежності в даних, які виглядали точно так, як у вас вище.

Виправлення ефектів квантування призвело до того, що наш вихід виглядає набагато більш плавним та менш згуртованим.

Щодо вашого коментаря "лінійна кореляція". Те, що ви представили, недостатньо для визначення того, чи є ці дані лінійно співвіднесеними чи ні. Тобто в деяких полях коефіцієнт кореляції> 0,7 вважається сильною лінійною кореляцією. Зважаючи на те, що більшість ваших даних близькі до походження, цілком можливо, що ваші дані є лінійно корельованими щодо того, що сказала б "звичайна мудрість". Кореляція дуже мало говорить про набір даних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.