Категоричне рішення
Трактуючи значення як категоричне, втрачається важлива інформація про відносні розміри . Стандартним методом подолання цього є впорядкована логістична регресія . Фактично, цей метод "знає", що і, використовуючи спостережувані зв'язки з регресорами (такими як розмір), підходить (дещо довільним) значенням для кожної категорії, що стосується впорядкування.A<B<⋯<J<…
В якості ілюстрації розглянемо 30 (розмір, категорія достатку) пар, згенеровані як
size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))
з достатністю класифікуються на інтервали [0,10], [11,25], ..., [10001,25000].
Впорядкована логістична регресія виробляє розподіл ймовірностей для кожної категорії; розподіл залежить від розміру. З такої детальної інформації ви можете отримати орієнтовні значення та інтервали навколо них. Ось графік з 10 PDF-файлів, оцінених за цими даними (оцінка для категорії 10 була неможлива через відсутність там даних):
Постійне рішення
Чому б не вибрати числове значення для представлення кожної категорії і не визначити невизначеність щодо справжнього ряду в рамках як частини терміна помилки?
Ми можемо проаналізувати це як дискретне наближення до ідеалізованого повторного вираження яке перетворює значення достатку в інші значення для яких спостережливі помилки є хорошим наближенням, симетрично розподіленими і приблизно такого ж очікуваного розміру незалежно від (дисперсія-стабілізуюча трансформація).faf(a)a
Для спрощення аналізу припустимо, що для досягнення такої трансформації були обрані категорії (засновані на теорії чи досвіді). Тоді ми можемо припустити, що повторно виражає категорію точки вирізу як їх індекси . Пропозиція означає вибір деякого "характерного" значення у межах кожної категорії та використання як числового значення достатку, коли кількість спостережень лежить між та . Це був би проксі-сервер для правильно перетвореного значення .fαiiβiif(βi)αiαi+1f(a)
Припустимо, що це достаток спостерігається з помилкою , так що гіпотетична дата є насправді замість . Помилка при кодуванні цього типу є, за визначенням, різницею , яку ми можемо виразити різницею двох термінівεa+εaf(βi)f(βi)−f(a)
error=f(a+ε)−f(a)−(f(a+ε)−f(βi)).
Цей перший термін, , контролюється (ми нічого не можемо зробити щодо ) і з’явиться, якби ми не класифікували недостатності . Другий термін є випадковим - він залежить від - і очевидно корелює з . Але ми можемо щось про це сказати: він повинен лежати між і . Більше того, якщо робить гарну роботу, другий термін може бути приблизно рівномірно розподілений. Обидва міркування пропонують вибрати щобf(a+ε)−f(a)fεεεi−f(βi)<0i+1−f(βi)≥0fβif(βi)лежить на півдорозі між та ; тобто .ii+1βi≈f−1(i+1/2)
Ці категорії в цьому питанні утворюють приблизно геометричну прогресію, що вказує на те, що є дещо спотвореною версією логарифму. Тому нам слід розглянути можливість використання геометричних засобів кінцевих точок інтервалу для представлення даних про достаток .f
Звичайна регресія найменших квадратів (OLS) при цій процедурі дає нахил 7,70 (стандартна помилка 1,00) та перехоплення 0,70 (стандартна помилка 0,58), а не нахил 8,19 (se 0,97) і перехоплення 0,69 (se 0,56) при регресуванні кількості журналів залежно від розміру. Обидва виявляють середню регресію, оскільки теоретичний нахил повинен бути близьким до . Категоричний метод виявляє трохи більше регресу до середнього (менший нахил) через додану помилку дискретизації, як очікувалося.4log(10)≈9.21
Цей графік показує некласифіковані змісту разом з нападом на основі класифікованих змістів ( з використанням геометричних засобів категорії кінцевих точок в відповідно до рекомендацій) і підгонкою на основі самих змістів. Підходи є надзвичайно близькими, що свідчить про такий спосіб заміни категорій відповідно вибраними числовими значеннями .
Певна обережність, як правило, потрібна для вибору відповідної "середини" для двох крайніх категорій, тому що часто там не обмежена. (Для цього прикладу я грубо сприйняв ліву кінцеву точку першої категорії як а не а праву кінцеву точку останньої категорії - ) Одне рішення - вирішити проблему спочатку, використовуючи дані, не в одній із крайніх категорій . Значення р будуть трохи надто хорошими, але в цілому примір повинен бути більш точним і менш упередженим.βif1025000