Найкращий метод створення графіків зростання


10

Мені потрібно створити діаграми (подібні до діаграм зростання) для дітей віком від 5 до 15 років (лише 5,6,7 тощо; немає дробових значень, як 2,6 років) для змінної стану здоров'я, яка є негативною, безперервною та в діапазон 50-150 (з кількома значеннями поза цим діапазоном). Мені потрібно створити криві 90-го, 95-го та 99-го перцентилів, а також створити таблиці для цих процентилів. Розмір вибірки - близько 8000.

Я перевірив і знайшов наступні можливі способи:

  1. Знайдіть кванти, а потім скористайтеся методом льосу, щоб отримати плавну криву від цих квантових. Ступінь гладкості можна регулювати параметром 'span'.

  2. Використовуйте метод LMS (Lambda-Mu-Sigma) (наприклад, використовуючи gamlss або VGAM пакети в R).

  3. Використовуйте квантильну регресію.

  4. Використовуйте середнє значення та значення SD кожної вікової групи, щоб оцінити перцентиль для цього віку та створити криві перцентиля.

Який найкращий спосіб це зробити? Під «найкращим» я маю на увазі або ідеальний метод, який є стандартним методом створення таких кривих зростання і був би прийнятним для всіх. Або простіший і простіший в реалізації метод, який може мати деякі обмеження, але є прийнятним, швидшим методом. (Наприклад, використання льосу на відсоткових значеннях набагато швидше, ніж використання LMS пакету gamlss).

Також, який буде основний код R для цього методу.

Спасибі за вашу допомогу.


2
Ви просите "найкраще", яке зазвичай є важким і неможливим для остаточного обговорення. ("Найкращий" показник рівня досить важкий.) Ви чітко прив'язували своє запитання до змін здоров'я у дітей, але ваші критерії щодо "найкращого" не є чіткими, зокрема, які види чи ступінь гладкості є прийнятними чи неприйнятними.
Нік Кокс

Я вітаю цю спробу, але а) очевидно, що не існує, інакше чому існують конкуруючі рішення чи чому це не видно в літературі, яку ви читаєте? Інтерес до цієї проблеми, безумовно, десятиліття, якщо не століття. Простіше означає: простіше зрозуміти, простіше пояснити медикам або нестатистично налаштованим професіоналам загалом, простіше втілити, ...? Мені, без сумніву, здається прискіпливим, але навіщо вам тут дбати про швидкість? Жоден із цих методів не є обчислювально складним.
Нік Кокс

@NickCox: Я змінив питання відповідно до ваших коментарів. Я оціню справжню відповідь.
rnso

1
Вибачте, але я не працюю в цій галузі, і я вважаю, що ваше запитання є занадто невловимим, щоб відповісти. Коментарі існують, тому що люди можуть не мати можливості чи не бажають відповідати, але все-таки є що сказати. Відповіді на замовлення не пишу.
Нік Кокс

Відповіді:


6

Існує велика література про криві зростання. На мою думку є три "верхні" підходи. У всіх трьох випадках час моделюється як обмежений кубічний сплайн з достатньою кількістю вузлів (наприклад, 6). Це параметричні плавніші з відмінною продуктивністю та простою інтерпретацією.

  1. Класичні моделі кривих зростання (узагальнені найменші квадрати) для поздовжніх даних із чутливою схемою кореляції, такою як AR1 безперервного часу. Якщо ви можете показати, що залишки є гауссовими, ви можете отримати MLE квантилів, використовуючи оцінені засоби та загальне стандартне відхилення.
  2. н
  3. YY

Коли ви використовуєте пропорційні коефіцієнти, як ви відповідали припущенню PO (припускаючи, що це не вдалося) з такою кількістю рівнів результату? Дякую.
липень

2
Навіть якщо це не вдається, модель може працювати краще, ніж деякі інші моделі через меншу загальну кількість припущень. Або перейдіть до однієї з інших порядкових моделей сімейства кумулятивних ймовірностей, таких як пропорційна небезпека (кумулятивна посилання на проблему журналу журналу).
Френк Харрелл

1

Регресія Гауссового процесу . Почніть з квадратного експоненціального ядра і спробуйте налаштувати параметри на око. Пізніше, якщо ви хочете робити все правильно, експериментуйте з різними ядрами та використовуйте граничну ймовірність для оптимізації параметрів.

Якщо ви хочете більше деталей, ніж надано вище підручник, ця книга чудова .


Дякую за вашу відповідь. Як ви оцінюєте регресію процесу Гаусса порівняно з іншими згаданими методами. Другий сюжет Гаусса на scikit-learn.org/0.11/auto_examples/gaussian_process/… виглядає дуже схожим на другий останній сюжет на цій сторінці LOESS (локальний регрес): princeofslides.blogspot.in/2011/05/… . LOESS виконати набагато простіше.
rnso

Особисто я настійно віддаю перевагу GPR для будь-якого набору даних, який є досить малим, щоб дозволити вам його встановити. Окрім того, що з теоретичної точки зору набагато «приємніший», він є більш гнучким, надійним та дає добре відкалібрований імовірнісний результат. Зауваживши це, якщо ваші дані щільні та добре сприйняті, то ваша аудиторія, ймовірно, не зможе визначити різницю між LOESS та GPR, якщо вони не є статистиками.
Енді Джонс

3
ух

1
@Nick: Моя задумана порада - побудувати модель своїх даних, а потім використати модель для побудови (гладких) перцентильних кривих. Тепер ви це згадали, так, я повністю пропустив другий компонент (тобто власне питання).
Енді Джонс

1
1,96
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.