Як можна згрупувати числові дані в природно утворюючі «дужки»? (наприклад, дохід)


14

Далі описано те, що я намагаюся досягти, але можливо, альтернативне вирішення проблеми може описати мою мету:

я хочу

  1. поділіть наступні числа на групи, де дисперсії чисел у кожній групі не надто великі, а відмінності між середніми групами не надто малі

  2. порівняйте отриманий розподіл зрештою з «ідеальними» та побачите, наскільки він «відмінний» від ідеального.


Пояснення мети Леймана

Я намагаюся обчислити розподіл доходу та визначити "доходи" кожного населення. Кронштейн доходів повинен бути саморегулюваним на основі вхідних даних.

Моя мета - остаточно виміряти або обчислити різницю між категоріями доходів. Я припускаю, що дужок буде багато, і я хочу побачити, наскільки далеко "розділений" кожен рівень.

Ось вибірка погодинного доходу для вибіркової сукупності населення 20 і загальний дохід 3587:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

Як я можу використовувати математичні поняття для групування, сортування та аналізу даних, що діють як розподіл доходу для певного населення?

Наприкінці розрахунку я хочу визначити багаторівневий розподіл доходу, де ідеальний розподіл виглядав би (приблизно) таким

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

або це:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

Питання

Як я повинен проаналізувати групи населення та виміряти розрив таким чином, який підкаже мені, скільки потрібно для того, щоб він більше нагадував останні два набори моделей, перелічені вище?


Дякуємо @svidgen за пропозицію розмістити тут замість Programmers.SE
goodguys_activate

Примітка. Я отримав цей відгук, задаючи це питання: It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.
goodguys_activate

Здається, я знайшов щось дуже схоже на те, що мені потрібно ... називав дані binning
goodguys_activate

Так, будь ласка, перенесіть це питання (і, якщо можливо, включіть ваше краще пояснення з коментарів).
goodguys_activate

Шукайте прогалини у розподілі доходів, якщо вам пощастить, ви можете знайти (дещо штучні) вершини, які потім можете використовувати як дужки. Це, ймовірно, працює досить добре для зниження доходів.
Marc Claesen

Відповіді:


18

Аналіз кластерів з однією змінною має ідеальний сенс, коли є якийсь вимір, уздовж якого можна розмістити значення. Це може бути вимірювальна шкала , час або простір .

Враховуючи впорядковані дані за деякою шкалою вимірювання , може бути зацікавлений у пошуку відносних перерв у розподілі частот (антимоди, в одній термінології).

Примітка застереження: Однак, перерви, що визначають бункери, які є, або які можуть здатися довільними, широко уникають у кількох областях статистичної науки, і існує широка та помітна перевага для виправлення порівну з рівними інтервалами, і дуже часто, щоб взагалі уникати поповнення, коли це можливо. . Частково це питання смаку, частково конвенція: практика змінилася, оскільки стає легше зберігати набори даних у повному обсязі.

Час серію можна розділити на періоди, епохи, періоди, незалежно, в ідеалі з відносно невеликих відмінностей всередині підсерії і щодо великих відмінностей між підсерією. Ця ж проблема виникає і для простору, коли потрібно розділити єдиний просторовий вимір (горизонтальний або вертикальний). У геологічних та інших науках це часто вивчається під заголовком зональності.

Зауважте, що будь-яке формальне кластеризація завжди повинно супроводжуватися відповідним побудовою даних (наприклад, використанням крапки або квантиля або графіку лінії), що дійсно може дати зрозуміти, що розриви очевидні (так що формальне кластеризація є просто декоративним) або що переконливих перерв не існує (так що формальне згрупування може бути безглуздим).

Розглянемо приклад іграшки значень, упорядкованих за величиною:

    14 15 16 23 24 25 56 57 58 

де видно, що тригрупова кластеризація

    14 15 16 | 23 24 25 | 56 57 58 

кнк-1к-1=2н-1(н-1к-1)к2н-1н

Проблему можна зробити точною (Fisher 1958; Hartigan 1975), поставивши маркери, щоб мінімізувати для заданої кількості груп

сума по групах мінливості навколо групових центрів.

Сума квадратних відхилень від групових засобів сприйме як найочевидніша можливість. Сума абсолютних відхилень від групових медіанів та інших заходів цілком може розважитись.

Hartigan (1975) показав, як динамічний підхід до програмування робить такі обчислення прямими, і представив код Fortran. Реалізація Stata (Cox 2007) має group1dбути встановлена ​​з SSC.

Cox, NJ 2007. GROUP1D: Статистичний модуль для групування або кластеризації в одному вимірі. http://ideas.repec.org/c/boc/bocode/s456844.html

Фішер, WD 1958. Про групування для максимальної однорідності. Журнал, Американська статистична асоціація 53: 789-98.

Hartigan, JA 1975. Алгоритми кластеризації. Нью-Йорк: Джон Вілі. Ч.6.

Постскрипт Цей підхід, здається, відповідає першій частині конкретного питання. Я виклав це загалом, тому що вважаю, що формулювання має певний загальний інтерес (і тому, що мені було легко переробити частину документації Cox 2007). Але якщо конкретна мета полягає в порівнянні розподілу доходу з референтним рівномірним розподілом, я не бачу, що бінінг взагалі має якусь роль. Це стандартна проблема в економіці, для якої криві Лоренца та заходи нерівності є вихідними. По суті, ви можете порівняти квантил з квантилем або відсотковий пункт до відсоткового пункту.


1

Погляньте на природний перелом Jenks:

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

Я думаю, що це те, що вам потрібно, і є реалізація на багатьох мовах.


5
Хоча це може бути не очевидно відразу, саме це є припущенням Ніка Кокса про те, що "сума квадратичних відхилень від групових засобів буде сприйматися як найочевидніша можливість". Він був більш загальним, ніж частково (я підозрюю), оскільки для доходів це буде поганим рішенням: зазвичай краще виконувати розрахунок з точки зору доходів від журналу.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.