Далі описано те, що я намагаюся досягти, але можливо, альтернативне вирішення проблеми може описати мою мету:
я хочу
поділіть наступні числа на групи, де дисперсії чисел у кожній групі не надто великі, а відмінності між середніми групами не надто малі
порівняйте отриманий розподіл зрештою з «ідеальними» та побачите, наскільки він «відмінний» від ідеального.
Пояснення мети Леймана
Я намагаюся обчислити розподіл доходу та визначити "доходи" кожного населення. Кронштейн доходів повинен бути саморегулюваним на основі вхідних даних.
Моя мета - остаточно виміряти або обчислити різницю між категоріями доходів. Я припускаю, що дужок буде багато, і я хочу побачити, наскільки далеко "розділений" кожен рівень.
Ось вибірка погодинного доходу для вибіркової сукупності населення 20 і загальний дохід 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Як я можу використовувати математичні поняття для групування, сортування та аналізу даних, що діють як розподіл доходу для певного населення?
Наприкінці розрахунку я хочу визначити багаторівневий розподіл доходу, де ідеальний розподіл виглядав би (приблизно) таким
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
або це:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Питання
Як я повинен проаналізувати групи населення та виміряти розрив таким чином, який підкаже мені, скільки потрібно для того, щоб він більше нагадував останні два набори моделей, перелічені вище?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.