Це проста ситуація; давайте так будемо. Головне - зосередитись на тому, що важливо:
Отримання корисного опису даних.
Оцінка окремих відхилень від цього опису.
Оцінка можливої ролі та впливу випадковості в інтерпретації.
Підтримання інтелектуальної цілісності та прозорості.
Є ще багато варіантів, і багато форм аналізу будуть достовірними та ефективними. Проілюструємо тут один підхід, який можна рекомендувати для його дотримання цих ключових принципів.
Для збереження цілісності давайте розділимо дані навпіл: спостереження з 1972 по 1990 роки та спостереження з 1991 по 2009 роки (по 19 років у кожній). Ми помістимо моделі до першої половини, а потім подивимося, наскільки добре працює проект в другій половині. Це має додаткову перевагу у виявленні суттєвих змін, які могли статися протягом другої половини.
Для отримання корисного опису нам необхідно: (а) знайти спосіб виміряти зміни та (б) підлаштувати найпростішу можливу модель, відповідну для цих змін, оцінити її та ітеративно підходити до більш складних для розміщення відхилень від простих моделей.
(a) у вас є багато варіантів: ви можете переглянути необроблені дані; ви можете подивитися на їх річні відмінності; ви можете зробити те ж саме з логарифмами (для оцінки відносних змін); ви можете оцінити роки втраченого життя або відносну тривалість життя (ПРАВ); або багато іншого. Подумавши, я вирішив розглянути RLE, визначений як відношення тривалості життя в когорті B відносно відношення до (довідкової) когорти A. На щастя, як показують графіки, тривалість життя в когорті А регулярно збільшується в стабільній мода з часом, так що більшість випадкових змін у RLE відбуватиметься через зміни в когорті B.
(b) Найпростіша можлива модель для початку - лінійна тенденція. Подивимося, як добре це працює.
Темно-сині точки в цьому сюжеті - це дані, збережені для пристосування; точки зору з легкого золота - це наступні дані, які не використовуються для підгонки. Чорна лінія підходить, з нахилом .009 / рік. Штрихові лінії - це інтервали прогнозування для окремих майбутніх значень.
В цілому придатність виглядає добре: експертиза залишків (див. Нижче) не показує суттєвих змін у їх розмірах з часом (протягом періоду даних 1972-1990). (Є певні вказівки, що вони, як правило, збільшуються на ранніх стадіях, коли тривалість життя була низькою. Ми могли б впоратися з цим ускладненням, пожертвувавши деяку простоту, але користь для оцінки тенденції навряд чи велика.) Є просто найменший натяк послідовного кореляційного зв’язку (проявляється деякими прогонами позитивних та прогонів негативних залишків), але, очевидно, це неважливо. Немає аутлайнерів, які б позначалися пунктами, що виходять за межі смуг передбачення.
Одне здивування полягає в тому, що в 2001 році значення раптово впали на нижчу смугу прогнозування і залишилися там: щось досить раптове і велике сталося і тривало.
Ось залишки, які є відхиленнями від описаного раніше опису.
Оскільки ми хочемо порівняти залишки до 0, вертикальні лінії наводяться до нульового рівня як наочний посібник. Знову ж, сині точки показують дані, які використовуються для пристосування. Легкі золоті - залишки для даних, що падають біля нижньої межі прогнозування, після 2000 року.
З цієї цифри ми можемо оцінити, що ефект зміни 2000-2001 рр . Становив приблизно -0,07 . Це відображає раптове падіння 0,07 (7%) повної тривалості життя в когорті В. Після цього падіння горизонтальна картина залишків показує, що попередня тенденція тривала, але на новому нижчому рівні. Цю частину аналізу слід вважати дослідницькою : вона не була спеціально спланована, але виникла завдяки дивовижному порівнянню між даними, що були проведені (1991–2009 рр.) Та відповідності решті даних.
Інша річ - навіть використовуючи дані лише за 19 ранніх років, стандартна похибка нахилу невелика: це лише .0009, лише десята частина оціночного значення .009. Відповідна t-статистика 10, що має 17 градусів свободи, надзвичайно значна (р-значення менше ); тобто ми можемо бути впевнені, що тенденція обумовлена не випадковістю. Це частина нашої оцінки ролі випадковості в аналізі. Інші частини - це експертизи залишків.10−7
Здається, немає підстав для встановлення більш складної моделі до цих даних, принаймні, не для того, щоб оцінити, чи існує справжня тенденція у RLE протягом часу: є така. Ми могли б піти далі і розділити дані на значення до 2001 року та значення після 2000 року, щоб уточнити наші оцінкитенденцій, але проводити тести на гіпотезу було б не зовсім чесно. Значення р було б штучно низьким, оскільки тестування на розщеплення не було заплановано заздалегідь. Але як дослідницька вправа така оцінка є чудовою. Дізнайтеся все, що можна, зі своїх даних! Будьте обережні, щоб не обманювати себе переозброєнням (що майже впевнено трапиться, якщо ви використовуєте більше півдесятка параметрів або близько того, або використовуєте автоматизовану техніку пристосування) або прослуховування даних: будьте уважні до різниці між офіційним підтвердженням та неофіційним (але цінні) дослідження даних.
Підведемо підсумки:
Вибравши відповідний показник тривалості життя (ЗНО), простягнувши половину даних, встановивши просту модель та протестувавши цю модель на решті даних, ми з високою впевненістю встановили, що : була послідовна тенденція; вона була близькою до лінійної протягом тривалого періоду часу; і в 2001 році відбулося раптове стійке падіння RLE.
Наша модель вражає парсимонічністю : для точного опису ранніх даних потрібні лише два числа (нахил та перехоплення). Для опису очевидного, але несподіваного відходу від цього опису потрібна третя (дата перерви 2001 р.). Немає аутлайнерів щодо цього опису трьох параметрів. Модель не буде суттєво вдосконалена, характеризуючи послідовну кореляцію (фокус методів часових рядів), намагаючись описати проявлені невеликі відхилення (залишки) або ввести складніші пристосування (наприклад, додавання в квадратичну складову часу або моделювання змін розмірів залишків у часі).
Тенденція склала 0,009 RLE на рік . Це означає, що з кожним роком очікувана тривалість життя в когорті Б додала 0,009 (майже 1%) від повного очікуваного нормального життя. Протягом дослідження (37 років) це склало б 37 * 0,009 = 0,34 = третину повного покращення життя. Незмінність у 2001 році скоротила цей приріст до приблизно 0,28 повної тривалості життя з 1972 по 2009 рік (хоча за цей період загальна тривалість життя зросла на 10%).
Хоча ця модель може бути вдосконалена, вона, ймовірно, потребує більше параметрів, і вдосконалення навряд чи буде великим (як свідчить майже випадкова поведінка залишків). Тоді ми в цілому повинні задовольнитись таким компактним, корисним, простим описом даних для такої невеликої аналітичної роботи.