Найкращі практики при обробці даних діапазону як безперервних


9

Я дивлюся, чи достаток пов’язаний із розмірами. Розмір (звичайно) безперервний, проте достаток записується в такій масштабі

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

А через Q ... 17 рівнів. Я думав, що одним із можливих підходів буде присвоєння кожній букві цифри: або мінімальна, максимальна, або медіана (тобто A = 5, B = 18, C = 38, D = 75,5 ...).

Які потенційні підводні камені - і як подібні, було б краще ставитись до цих даних як категорично?

Я прочитав це запитання, яке дає певні думки - але одним із ключів цього набору даних є те, що категорії не є рівними - тому трактуючи це як категоричне, слід вважати, що різниця між А і В є такою ж, як різниця між B і C ... (що можна виправити за допомогою логарифму - дякую Anonymousmouse)

Зрештою, я хотів би дізнатися, чи можна використовувати розмір як предиктор для достатку після врахування інших факторів навколишнього середовища. Прогноз також буде в діапазоні: Враховуючи розмір X та коефіцієнти A, B і C, ми прогнозуємо, що достаток Y впаде між Мін і Максом (я вважаю, що може охопити одну або кілька точок шкали: Більше, ніж Міні D і менше Макс F ... хоча чим точніше, тим краще).

Відповіді:


13

Категоричне рішення

Трактуючи значення як категоричне, втрачається важлива інформація про відносні розміри . Стандартним методом подолання цього є впорядкована логістична регресія . Фактично, цей метод "знає", що і, використовуючи спостережувані зв'язки з регресорами (такими як розмір), підходить (дещо довільним) значенням для кожної категорії, що стосується впорядкування.A<B<<J<

В якості ілюстрації розглянемо 30 (розмір, категорія достатку) пар, згенеровані як

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

з достатністю класифікуються на інтервали [0,10], [11,25], ..., [10001,25000].

Розсіювач категорії достатку проти розміру

Впорядкована логістична регресія виробляє розподіл ймовірностей для кожної категорії; розподіл залежить від розміру. З такої детальної інформації ви можете отримати орієнтовні значення та інтервали навколо них. Ось графік з 10 PDF-файлів, оцінених за цими даними (оцінка для категорії 10 була неможлива через відсутність там даних):

Щільності ймовірності за категоріями

Постійне рішення

Чому б не вибрати числове значення для представлення кожної категорії і не визначити невизначеність щодо справжнього ряду в рамках як частини терміна помилки?

Ми можемо проаналізувати це як дискретне наближення до ідеалізованого повторного вираження яке перетворює значення достатку в інші значення для яких спостережливі помилки є хорошим наближенням, симетрично розподіленими і приблизно такого ж очікуваного розміру незалежно від (дисперсія-стабілізуюча трансформація).faf(a)a

Для спрощення аналізу припустимо, що для досягнення такої трансформації були обрані категорії (засновані на теорії чи досвіді). Тоді ми можемо припустити, що повторно виражає категорію точки вирізу як їх індекси . Пропозиція означає вибір деякого "характерного" значення у межах кожної категорії та використання як числового значення достатку, коли кількість спостережень лежить між та . Це був би проксі-сервер для правильно перетвореного значення .fαiiβiif(βi)αiαi+1f(a)

Припустимо, що це достаток спостерігається з помилкою , так що гіпотетична дата є насправді замість . Помилка при кодуванні цього типу є, за визначенням, різницею , яку ми можемо виразити різницею двох термінівεa+εaf(βi)f(βi)f(a)

error=f(a+ε)f(a)(f(a+ε)f(βi)).

Цей перший термін, , контролюється (ми нічого не можемо зробити щодо ) і з’явиться, якби ми не класифікували недостатності . Другий термін є випадковим - він залежить від - і очевидно корелює з . Але ми можемо щось про це сказати: він повинен лежати між і . Більше того, якщо робить гарну роботу, другий термін може бути приблизно рівномірно розподілений. Обидва міркування пропонують вибрати щобf(a+ε)f(a)fεεεif(βi)<0i+1f(βi)0fβif(βi)лежить на півдорозі між та ; тобто .ii+1βif1(i+1/2)

Ці категорії в цьому питанні утворюють приблизно геометричну прогресію, що вказує на те, що є дещо спотвореною версією логарифму. Тому нам слід розглянути можливість використання геометричних засобів кінцевих точок інтервалу для представлення даних про достаток .f

Звичайна регресія найменших квадратів (OLS) при цій процедурі дає нахил 7,70 (стандартна помилка 1,00) та перехоплення 0,70 (стандартна помилка 0,58), а не нахил 8,19 (se 0,97) і перехоплення 0,69 (se 0,56) при регресуванні кількості журналів залежно від розміру. Обидва виявляють середню регресію, оскільки теоретичний нахил повинен бути близьким до . Категоричний метод виявляє трохи більше регресу до середнього (менший нахил) через додану помилку дискретизації, як очікувалося.4log(10)9.21

Результати регресії

Цей графік показує некласифіковані змісту разом з нападом на основі класифікованих змістів ( з використанням геометричних засобів категорії кінцевих точок в відповідно до рекомендацій) і підгонкою на основі самих змістів. Підходи є надзвичайно близькими, що свідчить про такий спосіб заміни категорій відповідно вибраними числовими значеннями .

Певна обережність, як правило, потрібна для вибору відповідної "середини" для двох крайніх категорій, тому що часто там не обмежена. (Для цього прикладу я грубо сприйняв ліву кінцеву точку першої категорії як а не а праву кінцеву точку останньої категорії - ) Одне рішення - вирішити проблему спочатку, використовуючи дані, не в одній із крайніх категорій . Значення р будуть трохи надто хорошими, але в цілому примір повинен бути більш точним і менш упередженим.βif1025000


+1 відмінна відповідь! Мені особливо подобається, як описано 2 різні варіанти разом з їх виправданнями. Я також збираюсь брати журнал достатку, а не розмір, повинен бути акцентом, про що і моя думка. В одному з питань, в частині 1, ви заявляєте, що "ви можете створити орієнтовні значення та інтервали навколо них". Як це зробити?
gung - Відновіть Моніку

Гарне запитання, @gung. Грубим способом, який може бути ефективним, є трактування категорій як даних, що оцінюються інтервалом, і впорядковані результати logit забезпечують (дискретний) розподіл через ці інтервали для будь-якого заданого значення "розміру". Результатом є розподіл з інтервальною оцінкою, який матиме середньоквадратичне та інтервальне значення довірчих меж.
whuber

3
@whuber, варто згадати варіанти програмного забезпечення. Я здогадуюсь, що ви використовували Stata (якщо я достатньо добре підготовлений до графіків Stata та повідомляю їх з графіків R та SAS), де ця модель підходить ologit. В R, ви можете зробити це з polrв MASSпакеті.
Стаск

1
Ти маєш рацію, @Stask. Дякуємо за посилання на рішення R. (Ці графіки - це всі графіки за замовчуванням у Stata 11; лише стилі легенди та рядки в останньому були налаштовані, оскільки в іншому випадку червоно-зелена відмінність може бути очевидною приблизно для 3% усіх читачів.)
whuber

2
@StasK rms::lrmі порядковий ( clmпакет), також хороші варіанти.
chl

2

Подумайте про використання логарифму розміру.


Ха - Ця відповідь викликала часткову долоню обличчя. Правда, це стосується питання масштабу - але все ж під рукою: класифікувати чи ні, і до якого числа прив’язати "значення". Якщо ці питання не мають значення, я можу впоратися і з цим слуханням.
Trees4theForest

1
Ну, ви ставили різні питання в одну. Дані, які ви маєте, мають більше значення в логарифмічному масштабі. Хочете ви робити бінінг чи ні, це окреме питання, і там у мене є лише інша відповідь на долоню для обличчя для вас: залежить від ваших даних та від того, що ви хочете досягти. Тоді виникає ще одне приховане запитання: як я обчислити різницю між інтервалами - обчислити різницю їхніх засобів? або мінімальна відстань (тоді від A до B було б 0, B до C було б 0, але від A до C немає). і т. д.
Мав QUIT - Anonymous-Mousse

Хороші моменти, я оновив своє питання, щоб отримати більше інформації для вирішення цілей. Що стосується різниці інтервалів, я думаю, що це моє питання - які би були відносні переваги / недоліки обчислення інтервалу на основі різниці засобів, мінімальної відстані, максимальної відстані, відстані між хвилинами, відстані між максимумами тощо. Будь-яка порада щодо того, які речі мені потрібно враховувати, щоб прийняти це рішення (або якщо його навіть потрібно враховувати) було б чудово.
Trees4theForest

Існує безліч подальших варіантів. Наприклад, для усунення всіх ефектів масштабу можна спробувати передбачити позицію рейтингу. Крім цього, мова йде про помилки вимірювання. Приймаючи логарифм, ви зазвичай також оцінюєте помилки. Отже, коли справжнє значення - 10000, а передбачуване - 10100, це набагато менше, ніж коли передбачуване значення дорівнює 1, а справжнє значення - 101. помилки з 0.
Має QUIT - Anonymous-Mousse
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.