Докази техногенного глобального потепління вражають «золотим стандартом»: як вони це зробили?


35

Це повідомлення у статті Reuter від 25.02.2019 наразі в усіх новинах:

Докази для техногенного глобального потепління вражає "золотим стандартом"

[Вчені] заявили, що впевненість у тому, що людська діяльність піднімає тепло на поверхні Землі, досягла рівня "п’ять сигм", статистичний датчик означає, що існує лише шанс на мільйон, що сигнал з’явиться, якби немає потепління.

Я вважаю, що це стосується цієї статті "Святкування річниці трьох ключових подій в науці про зміну клімату", яка містить сюжет, схематично показаний внизу (Це ескіз, тому що я не зміг знайти зображення з відкритим кодом для оригінального, подібного безкоштовні зображення можна знайти тут ). Ще одна стаття з тієї ж дослідницької групи, яка, здається, є більш оригінальним джерелом, є тут (але вона використовує значення 1% замість 5σ ).


Сюжет представляє вимірювання трьох різних дослідницьких груп: Системи дистанційного зондування, Центр супутникових додатків та досліджень та Університет Алабами в Хантсвілі.

Сюжет відображає три криві, що піднімаються, співвідношення сигнал / шум як функцію довжини тренду.

антропогенний сигнал

Тож науковці якось вимірювали антропогенний сигнал глобального потепління (чи зміни клімату?) На рівні 5σ , що, очевидно, є деяким науковим стандартом доказів .

Для мене такий графік, який має високий рівень абстракції, викликає багато питань , і взагалі мені цікаво питання "Як вони це зробили?" . Як ми пояснимо цей експеримент простими словами (але не настільки абстрактними), а також пояснимо значення рівня 5 σ ?5σ

Я задаю це питання тут, бо не хочу дискусії про клімат. Натомість я хочу відповіді щодо статистичного змісту, а особливо для уточнення сенсу такого твердження, яке використовує / претендує на 5σ .


Що таке нульова гіпотеза? Як вони встановили експеримент, щоб отриматиантропогеннийсигнал? Якийрозмірефектусигналу? Це просто невеликий сигнал, і ми вимірюємо це лише зараз, оскільки шум зменшується, або сигнал збільшується? Які припущення робляться для створення статистичної моделі, за допомогою якої вони визначають перетин порогу 5 сигм (незалежність, випадкові ефекти тощо)? Чому три криві для різних дослідницьких груп різні, чи мають різний шум чи вони мають різні сигнали, а у випадку останнього, що це означає щодо інтерпретації ймовірності та зовнішньої дійсності?


2
@MattF. Моє сподівання полягає в тому, що вдасться зробити просту експозицію, яка пояснює статистичну концепцію порогу , який тут використовується (принаймні, фізики часток з високими енергіями, які також використовують σ розбіжності / ефекти для опису співвідношення сигнал / шум у кількох подіях, з цим проблеми не мають). Під простим я маю на увазі щось, позбавлене жаргону кліматології, але досить складне, щоб містити суть. Скажімо, це було б щось написане для професійних статистиків та математиків таким, щоб вони могли зрозуміти 5 σ тут. 5σσ5σ
Секст Емпірік

1
Щоб підкреслити контраст з фізикою високих енергій: для цього поля статистики можуть зрозуміти, що рівень в основному безглуздий і планка встановлена ​​високою, оскільки обчислення технічно неправильно (1. погляд в іншому місці, ефект 2. неправильні припущення про розподіл помилок ігнорування систематичних ефектів 3. Безуально аналізуючи імпліцитно, "надзвичайні претензії вимагають надзвичайних доказів"). 5σ
Секст Емпірік

1
Питання в тому, наскільки ці три наслідки є у випадку цієї техногенної статті про глобальне потепління. Я думаю, що важливо зробити це зрозумілим, щоб демістифікувати твердження про науковість. Настільки звичайно просто закидати деякі аргументи в аргумент, щоб це звучало суворо, і більшість людей припиняють сумніватися.
Секст Емпірік

2
Ви бачили цю критику: judithcurry.com/2019/03/01/… ?
Роберт Лонг

2
Випадково я читав ці документи лише кілька днів тому, і тепер помітив вашу нову щедрість. Я можу щось написати зараз.
амеба каже, що повернеться Моніка

Відповіді:


15

Не завжди йдеться про статистичне тестування. Можливо, мова йде і про теорію інформації.

Термін 5σ - це те, що він говорить: відношення "сигнал" до "шуму". У тестуванні гіпотез ми маємо оцінку параметра розподілу та стандартну похибку оцінки. Перший - "сигнал", другий - "шум", а співвідношення статистики та її стандартної помилки - z-статистика, t-статистика, F-статистика, ви її називаєте.

Тим не менш співвідношення сигнал / шум корисне всюди, де ми отримуємо / сприймаємо певну інформацію через деякий шум. Як пояснюється цитоване посилання

Коефіцієнт сигнал-шум (часто скорочений SNR або S / N) - це захід, який використовується в науці та техніці для кількісного визначення кількості сигналу, пошкодженого шумом.

У нашому випадку "сигнал" - це вимірювана фактична зміна температури деяких прошарків атмосфери, а "шум" - це передбачення зміни від моделювання без відомих антропогенних впливів. Буває так, що ці симуляції передбачили більш-менш стаціонарну температуру з певним стандартним відхиленням σ.

Тепер повернемось до статистики. Вся статистика випробувань (z, t, F) - це відношення оцінки до її стандартної похибки. Тож коли ми статистики чуємо про щось на кшталт S / N, ми думаємо, що z-статистика і оснащувати її ймовірністю. Кліматологи, очевидно, цього не роблять (про цю ймовірність ніде в статті не згадується ). Вони просто з'ясовують, що зміна "приблизно в три-вісім" разів більша за очікувану, S / N - 3σ до 8σ.

У статті йдеться про те, що вони зробили два типи моделювання: одне з відомими антропогенними впливами, включеними в модель, та інші з виключеними відомими антропогенними впливами. Перше моделювання було подібне до вимірюваних фактичних супутникових даних, а друге - далеко. Якщо це ймовірно чи ні, вони не кажуть і, очевидно, не хвилюються.

Щоб відповісти на інші запитання. Вони не встановлювали жодних експериментів, вони робили моделювання відповідно до своїх моделей. Тож немає явної нульової гіпотези, окрім очевидної, що зміна є аналогічною очікуваній (S / N дорівнює 1).

Розмір ефекту сигналу - це різниця між фактичними даними та моделюванням. Це сигнал у 5 разів більший, ніж очікуваний (у п’ять разів перевищує звичайну мінливість температур). Здається, що шум зменшується через кількість та, можливо, точність вимірювань.

Всупереч нашим очікуванням від "справжніх вчених", немає статистичної моделі, про яку можна було б говорити, тому питання про зроблені припущення є невиразним. Єдине припущення полягає в тому, що їх моделі дозволяють прогнозувати клімат. Це справедливо як твердження, що моделі, які використовуються для прогнозів погоди, є надійними.

Існує набагато більше, ніж три криві. Вони є результатами моделювання різних моделей. Вони просто повинні бути різними. І так, мають різний шум. Сигнал, наскільки він різний, - це різні набори вимірювань, які мають свою похибку вимірювання, а також повинні бути різними. Що це означає щодо тлумачення? Імовірність тлумачення S / N не є хорошою. Однак зовнішня обґрунтованість висновків є надійною. Вони просто стверджують, що зміни клімату в період з 1979 по 2011 рік порівнянні з моделюванням, коли відомі антропогенні впливи враховуються і приблизно в п’ять разів більше, ніж ті, які розраховуються за допомогою моделювання, коли відомі антропогенні фактори виключаються з моделі.

Отже, залишається одне питання. Якщо кліматологи попросять статистиків зробити модель, що це має бути? На мою думку, щось в русі броунівського руху.


Отже, що являє собою "сигнал", яка природа "шуму", і до яких небачених процесів ми можемо його віднести?
Джош

1
Сорі @Josh, я передчасно натиснув кнопку відправки. Тепер ви можете прочитати мою повну відповідь. Більше руди менше, "сигнал" - це фактичні вимірювання, а "шум" - це результати моделювання, коли відомі антропогенні фактори виключаються з моделі. На мій погляд, це дуже нестатистично ...
Nino Rode

1
По-друге, те, що я отримую з вашого повідомлення, - це те, що статистика S / N визначається сигналом: різниця між двома теоретичними моделями (ефект людини від базової лінії) та шумом: відхилення в межах цих теоретичних моделей. Але на це можуть бути надзвичайно впливають систематичні ефекти. Розподіл випадкових ефектів недостатньо визначається простим усередненням у порівнянні з дисперсією в моделюванні monte carlo (див. Частинку Vivianonium). Якщо є систематична помилка, то ви можете зробити розбіжність настільки великим, як вам потрібно, лише зібравши більше даних. nσ
Секст Емпірік

3
@ NinoRode Можливо, мені чогось не вистачає, але оскільки "шумова" модель без антропогенних впливів очевидно помиляється через те, що середня температура піднялася на основі емпіричних вимірювань , як ця модель забезпечує відповідну базову лінію? Оскільки зрозуміло, що температура коливається внаслідок природних процесів ( en.wikipedia.org/wiki/Little_Ice_Age ) на додаток до антропогенних, що є підставою для припущення, що модель "шуму" повинна мати підвищення середньо-нульової температури протягом період аналізу?
Джош

1
@Scott, проблема розумного мультфільму полягає в тому, що в часових рядах немає шуму, оскільки вимірювання, ймовірно, недостатньо уточнені, щоб визначити, яка температура була в певному столітті, не кажучи вже про конкретний рік. Так виглядає плавно і поступово до появи сучасних вимірювальних приладів. У механіці рідини це було б як порівняння миттєвого спостереження за швидкісним полем із середнім за Рейнольдсом; це не відповідне порівняння. Якщо ви насправді не думаєте, що до глобальної температури по суті була нульова мінливість, поки не народилася Грета Тунберг. :)
Джош

11

Caveat: Я НЕ експерт з кліматології, це не моє поле. Будь ласка, майте це на увазі. Виправлення вітаються.


Цифра, на яку ви посилаєтесь, походить з недавнього документу Santer et al. 2019 рік, відзначаючи річницю трьох ключових подій в галузі зміни клімату від природної зміни клімату . Це не дослідницький документ, а короткий коментар. Ця цифра є спрощеним оновленням аналогічної фігури з попередньої наукової роботи тих же авторів, Santer et al. 2018, Вплив людини на сезонний цикл температури тропосфери . Ось цифра 2019 року:

enter image description here

І ось цифра 2018 року; панель A відповідає рисунку 2019 року:

enter image description here

Тут я спробую пояснити статистичний аналіз за цією останньою цифрою (усі чотири панелі). Наука папір відкритий доступ і цілком читається; статистичні деталі, як завжди, приховані в Додаткових матеріалах. Перш ніж обговорювати статистику як таку, слід сказати кілька слів про дані спостережень та моделювання (кліматичні моделі), які використовуються тут.


1. Дані

Абревіатури RSS, UAH та STAR відносяться до реконструкцій тропосферної температури із супутникових вимірювань. Температуру тропосфери контролюють з 1979 року за допомогою супутників погоди: див. Вікіпедію щодо вимірювань температури МГУ . На жаль, супутники безпосередньо не вимірюють температуру; вони вимірюють щось інше, з чого можна зробити висновок про температуру. Більше того, як відомо, вони страждають від різних залежностей від часу і проблем з калібруванням. Це робить реконструкцію фактичної температури складною проблемою. Кілька дослідницьких груп проводять цю реконструкцію, дотримуючись дещо різних методологій та отримуючи дещо інші кінцеві результати. RSS, UAH та STAR - це ці реконструкції. Щоб цитувати Вікіпедію,

Супутники не вимірюють температуру. Вони вимірюють випромінювання в різних діапазонах довжин хвиль, які потім повинні бути математично перевернуті, щоб отримати непрямі умовиводи температури. Отримані температурні профілі залежать від деталей методів, які використовуються для отримання температур від сяйва. В результаті різні групи, які проаналізували супутникові дані, отримали різні температурні тенденції. Серед цих груп - Системи дистанційного зондування (RSS) та Університет Алабами в Хантсвілі (грн.). Супутникова серія не є повністю однорідною - запис побудований із серії супутників з подібними, але не однаковими приладами. Датчики з часом погіршуються, і корекції необхідні для супутникового дрейфу на орбіті.

Існує багато дискусій щодо того, яка реконструкція є надійнішою. Кожна група періодично оновлює свої алгоритми, змінюючи весь реконструйований часовий ряд. Ось чому, наприклад, RSS v3.3 відрізняється від RSS v4.0 на наведеному вище малюнку. В цілому по AFAIK в цій галузі прийнято, що оцінки глобальної температури поверхні є більш точними, ніж супутникові вимірювання. У будь-якому випадку, що має значення для цього питання, є те, що існує декілька доступних оцінок просторово вирішеної температури тропосфери, починаючи з 1979 р. По теперішній час, тобто як залежність від широти, довготи та часу.

T(x,t)

2. Моделі

Існують різні кліматичні моделі, які можна запустити для імітації температури тропосфери (також як функцію широти, довготи та часу). Ці моделі беруть за вхід концентрацію СО2, вулканічну активність, сонячне опромінення, концентрацію аерозолів та різні інші зовнішні впливи, і вони виробляють температуру як вихід. Ці моделі можуть бути запущені за той самий часовий період (1979 - зараз), використовуючи фактично виміряні зовнішні впливи. Потім виходи можуть бути усереднені, щоб отримати середній вивід моделі.

Можна також запустити ці моделі, не вводячи антропогенних факторів (парникові гази, аерозолі тощо), щоб отримати уявлення про неантропогенні прогнози моделі. Зауважте, що всі інші фактори (сонячні / вулканічні / тощо) коливаються навколо середніх значень, тому вихід неантропогенної моделі будується нерухомим. Іншими словами, моделі не дозволяють клімату змінюватися природним шляхом без будь-якої конкретної зовнішньої причини.

M(x,t)N(x,t)

z

T(x,t)M(x,t)N(x,t)

T(x,i)M(x,i)N(x,i)i

  1. Середньорічна середня температура: просто середня температура за весь рік.
  2. Річний сезонний цикл: літня температура мінус температура взимку.
  3. xi
  4. Річний сезонний цикл із середньою загальною відніманою величиною: такий же, як (2), але знову віднімає середнє значення в усьому світі.

M(x,i)F(x)

T(x,i)F(x)

Z(i)=xT(x,i)F(x),
β ; результуючого тимчасового ряду . Це буде чисельникz-статистичний ("співвідношення сигнал / шум" на малюнках).

Для обчислення знаменника вони використовують неантропогенну модель замість фактично спостережуваних значень, тобто обчислюють

W(i)=хN(х,i)Ж(х),
і знову знайдемо її схил βноiсе. Щоб отримати нульовий розподіл схилів, вони запускають неантропогенні моделі протягом 200 років, рубають виходи в 30-річні шматки і повторюють аналіз. Стандартне відхилення відβноiсе Значення утворює знаменник значень z-статистичні:

z=βВар1/2[βноiсе].

Те, що ви бачите на панелях A - D малюнка вище, - це такі z значення для різних кінцевих років аналізу.

Нульова гіпотеза тут полягає в тому, що температура коливається під впливом стаціонарних сонячних / вулканічних / тощо входів без будь-якого дрейфу. Високийz значення вказують на те, що спостережувані температури тропосфери не відповідають цій нульовій гіпотезі.

4. Деякі зауваження

Перший відбиток пальців (панель A) - IMHO - найбільш тривіальний. Це просто означає, що спостережувані температури монотонно зростають, тоді як температури під нульовою гіпотезою не роблять. Я не думаю, що для цього потрібно зробити всю складну техніку. Середній показник часових рядів нижчої тропосфери в усьому світі (варіант RSS) виглядає приблизно так :

enter image description here

і, очевидно, тут дуже важлива тенденція. Я не думаю, що для того, щоб побачити це, не потрібні моделі.

Відбиток пальця на панелі B дещо цікавіший. Тут віднімається глобальна середня величина, томуz-значення визначаються не підвищенням температури, а просто просторовими моделями зміни температури. Дійсно, загальновідомо, що Північна півкуля прогрівається швидше, ніж Південна (ви можете порівняти півкулі тут: http://images.remss.com/msu/msu_time_series.html ), і це також які кліматичні моделі вихід. Панель B багато в чому пояснюється цією міжпівкульною різницею.

Відбиток пальців на панелі C, мабуть, ще цікавіший, і саме він був основним фокусом Santer et al. Документ 2018 року (згадайте його назву: "Вплив людини на сезонний цикл тропосферної температури", наголос додано). Як показано на рисунку 2 у статті, моделі передбачають, що амплітуда сезонного циклу повинна збільшуватися в середніх широтах обох півкуль (а в інших місцях, зокрема, над індійським мусоновим регіоном). Це дійсно те, що відбувається в спостережуваних даних, даючи високі показникиz-значення на панелі C. Панель D схожа на C, оскільки тут ефект відбувається не через глобальне збільшення, а через специфічну географічну закономірність.


PS Конкретна критика на веб-сайті judithcurry.com, яку ви зв'язали вище, для мене виглядає досить поверхово. Вони піднімають чотири бали. Перша полягає в тому, що ці сюжети лише показуютьz-статистика, але не розмір ефекту; проте, відкривши Santer et al. У 2018 році ви знайдете всі інші цифри, на яких чітко відображаються фактичні значення нахилу, який є ефектом розміру відсотків. Другий я не зміг зрозуміти; Я підозрюю, що це збентеження з їхнього боку. Третя - про те, наскільки значуща нульова гіпотеза; це досить справедливо (але поза темою на CrossValided). Останній розробляє певний аргумент щодо автокорельованого часового ряду, але я не бачу, як це стосується вищевказаного розрахунку.


2
(+1) Це чудова відповідь! Якщо ви не заперечуєте: чи могли б ви розгорнутись на крок "PCA через часові моменти"? Я не розумію, як мислити робити PCA там, а не аналізувати кожен вимір окремо.
mkt - Відновіть Моніку

+1 Це чудове пояснення. Дуже близький до того, що я очікував (я не дуже знав, чого насправді очікувати, і моє запитання було невиразним) і гідний щедрості (залишу це до кінця, щоб звернути увагу). Мені потрібно буде прочитати розділ відбитків пальців ще кілька разів, і він на деякий час закипить у моєму мозку, я все ще бажаю трохи більше інтуїції та краще зрозуміти заβшум and the connection to noise in data and what underlying principle of probability is causing this (in high energy particle physics this is more obvious). But this answer will help me sufficiently.
Sextus Empiricus

1
@mkt I am sure there are many different ways to do a similar analysis. This is not my field and I would not know why the authors made these particular analysis choices. That said, they do PCA do reduce what I called N(x,i) to F(x), i.e. to remove the time-dependency. This is because they want to project the observed values in each year (what I called T(x,i)) onto this F(x). For this purpose, it should be time independent. I suspect that instead of doing PCA, they could have used N(x,2019) or the average over the last several years. But why not PCA.
amoeba says Reinstate Monica

1
Yeah, this stuff can be discussed from all kinds of angles. I am personally often without much judgement about any side, but I do like that arguments are crisp and clear. The reporting about climate is currently very fuzzy.
Sextus Empiricus

1
What still puzzles me about the technical treatement is the meaning of F(x) (you can describe the theoretic time series as a sum of components and this is the one with largest variance?) But why correlate the measured signal with this component and relate it to the variance of the correlation of the anthropogenic model with this component ? (did you maybe switch anthropogenic and non anthropogenic model?) All this stuff (hidden analysis) makes it very difficult to see whether they truely discovered a bump with 5 sigma or whether they just found that measurements do not fit the model.
Sextus Empiricus
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.