Обчислення середнього нахилу: середнє гармонійне чи арифметичне?


11

Я маю обчислити середній відсотковий нахил у великому наборі для великого набору даних, основний метод тут детально описаний . Однак я почав замислюватися про те, чи може гармонічне середнє бути більш підходящим, ніж стандартне середнє арифметичне, оскільки технічно це швидкість зміни. Я не бачив цього розгортання в жодній з інших дискусій щодо усереднення нахилу по точках, областях, лініях і т. Д. Це слід зробити досить просто.

редагувати: Метою обчислення середнього нахилу в цьому випадку є генерування одного параметра (з багатьох), який буде використовуватися при моделюванні порогів ініціації каналу. У мене є набір зібраних на місцях заголовків каналів, в яких я збиратимуть накопичення потоку, різні середні параметри збільшення та ін., І буду використовувати кілька лінійних регресій, щоб спробувати описати пороги накопичення з точки зору інших параметрів.


4
Це залежить від того, чому ви обчислюєте середній нахил. Яка мета? Яку фізичну величину ви намагаєтеся виміряти? Хоча багато форм середніх є законними, остерігайтеся гармонійного середнього: це створює проблеми, коли будь-який нахил дорівнює нулю, що часто трапляється.
whuber

Відповіді:


10

Середній нахил звучить як природна величина, але це досить дивна річ. Наприклад, середній нахил плоскої горизонтальної рівнини дорівнює нулю, але коли ви додаєте крихітний шматочок випадкового, нульового середнього шуму до DEM цієї рівнини, середній нахил може тільки піднятися вгору. Інші дивні форми поведінки - це залежність середнього нахилу від роздільної здатності DEM, яку я тут задокументував , та його залежність від того, як була створена DEM. Наприклад, деякі DEM, створені з контурних карт, насправді трохи терасовані - з крихітними різкими стрибками, де лежать контурні лінії - але в іншому випадку є точними зображеннями поверхні в цілому. Ці різкі стрибки, якщо їм надавати занадто велику або занадто малу вагу в процесі усереднення, можуть змінити середній нахил.

Підвищення ваги є актуальним, оскільки, по суті, гармонійне середнє (та інші засоби) рівномірно зважують схили. Щоб зрозуміти це, розглянемо середнє гармонічне значення лише двох додатних чисел x і y . За визначенням,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

де ваги a = y / (x + y) і b = x / (x + y). (Вони заслуговують на те, щоб їх називали "вагами", оскільки вони є позитивними і дорівнюють одиниці. Для середньої арифметичної ваги а = 1/2 і b = 1/2). Очевидно, що вага прикріплений до й , так само у / (х + у), є великим , коли х є малим по порівнянні з у . Таким чином, гармоніка означає надмірну вагу менших значень.

Це може допомогти розширити питання. Середня гармоніка - це сімейство середніх значень, параметризованих реальним значенням p . Подібно до того, як середнє гармонічне значення отримується шляхом усереднення зворотних значень x і y (а потім взяття зворотного їх середнього значення), загалом ми можемо середньостатистичні pth сили x і y (а потім брати 1 / pth потужність результату ). Випадки p = 1 і p = -1 - це арифметичні та гармонічні засоби відповідно. (Ми можемо визначити середнє для р = 0, приймаючи межі і , таким чином , отримати середнє геометричне як член цього сімейства, теж.) Як рзменшується з 1, менші значення все більше і більше важать; і чим p збільшується від 1, тим більші значення все більше і більше важать. Звідси випливає, що середня величина може збільшуватися лише у міру збільшення p і повинна зменшуватися зі зменшенням p . (Це видно на другому малюнку нижче, в якому всі три лінії або плоскі, або збільшуються зліва направо.)

Здійснюючи практичний погляд на цю проблему, ми можемо замість цього вивчити поведінку різних засобів нахилів і додати ці знання до нашої аналітичної панелі інструментів: коли ми очікуємо, що укоси вступатимуть у взаємозв'язок таким чином, що меншим нахилам потрібно надавати більше вплив, ми можемо вибрати середнє значення з p менше 1; і навпаки, ми можемо збільшити p вище 1, щоб підкреслити найбільші схили. З цією метою розглянемо різні форми дренажних профілів поблизу точки.

Щоб показати, що може бути далі, я розглянув три якісно різні місцеві місцевості : один там, де всі схили рівні (що дає хороший орієнтир); інше - там, де ми локально розташовані на дні чаші: навколо нас схили дорівнюють нулю, але потім поступово збільшуються і з часом навколо ободу стають довільно великими. Зворотна ця ситуація виникає там, де неподалік схили помірні, але потім розташовані далеко від нас. Це могло б охопити реально широкий спектр поведінки.

Ось псевдо-3D графіки цих трьох типів дренажних форм:

Сюжети в 3D

Тут я обчислив середній нахил кожного - з однаковим кольоровим кодуванням - як функцію p , дозволяючи p варіюватися від -1 (гармонійне середнє) до 2.

Нахил означає vs p

Звичайно, синя лінія є горизонтальною: незалежно від того, яке значення приймає p , середнє значення постійного нахилу не може бути інакше, ніж та константа (яка була задана на 1 для посилання). Високі схили навколо дальнього краю червоної чаші сильно впливають на середні схили, оскільки р змінюється: помітьте, наскільки великими вони стають, коли p перевищує 1. Горизонтальний ободок на третій (золото-зеленій) поверхні викликає середнє гармонічне значення (p = - 1) дорівнювати нулю.

Примітно, що відносні положення трьох кривих змінюються на p = 0 (середнє геометричне значення): для p більше 0 0 червона чаша має більші середні нахили, ніж синя, тоді як для від’ємного p червона миска має менший середній схили, ніж сині. Таким чином, ваш вибір p може змінити навіть відносний рейтинг середніх схилів.

Глибокий вплив гармонійного середнього (p = -1) на жовто-зелену форму повинен дати нам паузу: це свідчить про те, що, коли в дренажі достатньо невеликих схилів, середнє гармонічне може бути настільки малим, що перевершує будь-який вплив всі інші схили.

У дусі аналізу дослідницьких даних, ви можете розглянути можливість p - можливо, дозволяючи йому варіюватися від 0 до трохи більше, ніж 1, щоб уникнути екстремальних ваг - і виявити, яке значення створює найкращі співвідношення між середнім нахилом і змінною є моделюванням (наприклад, пороги ініціалізації каналу). "Найкраще" зазвичай розуміють у значенні "найбільш лінійних" або "створення постійних [гомосептичних] залишків" в регресійній моделі.


Дякуємо за ретельний аналіз! Мені доведеться трохи про це поговорити.
Джей Гуарнері

1

Я застосував емпіричний підхід, щоб знайти додаткову відповідь на відмінну теоретичну відповідь Шубером. Я вирішив обчислити нахил у градусах і середній, використовуючи середнє кутове . Далі я обчислив арифметичні та гармонічні засоби відсоткового нахилу, створив набір точок вибірки, випадково розташованих у досліджуваній області. Я вимагав 2000 балів з мінімальною дистанцією 100 м, що дало 1326 балів. Я відбирав вибірки значень кожного середнього растру нахилу в кожній точці і перетворював відсоткове значення в градуси за допомогою формули Degrees = atan(percent/100). Моє припущення тут полягає в тому, що кутова середня величина буде створювати "правильний" середній нахил у градусах, і який би відсотковий показник наблизився до нього, це була б правильна процедура.

Далі я порівняв усі ненульові значення, використовуючи тест Крускала-Уоллеса (припущення полягають у тому, що для більшості нульових значень нахилу воно буде нульовим у всіх трьох, а нульові значення маскуватимуть відмінності між методами). Я виявив значну різницю між трьома (чи-квадрат = 17.9570, DF = 2, p = 0.0001), тому я додатково вивчив дані, використовуючи процедуру Данна, використовуючи альфа = 0,05 (Elliot and Hynan 2011) . Кінцевим результатом є те, що середнє арифметичне та гармонічне значення значно відрізняються одна від одної, але вони значно відрізняються від середнього кута:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

Якщо в моїх припущеннях все було правильним (вони дуже добре не можуть бути), це означає, що, хоча гармонічні та арифметичні засоби створюють різні значення один від одного, вони обидва "близькі" до кутового значення, щоб бути прийнятними. Тут я можу придумати ще два застереження (будь-ласка, додайте будь-яких інших, якщо ви їх думаєте):

  1. Більший розмір вибірки може виявити значну різницю між відсотковою величиною та середньою кутовою. Однак розмір моєї вибірки становив ~ 1000 балів лише за ненульових значень.
  2. Оскільки мої вибіркові точки були розміщені без урахування дренажних басейнів, може бути задіяна певна реплікація, оскільки будь-який середній ухил буде пов'язаний із середніми схилами над ним.

1
Це цікаво (+1), але остерігайтесь обмежень. (1) Так, якщо ви виберете більший розмір вибірки, ви виявите, що всі відмінності суттєві. Тому немає сенсу проводити тест статистичної гіпотези: ви хочете зосередити увагу на кількості різниці між процедурами. (2) Ваші результати повністю залежать від фактичних властивостей ваших даних. Вони залежать від інших наборів даних. (3) Кутове середнє значення корисне як еталонне, але воно аж ніяк не є бажаним значенням. Що використовувати в якості еталону, повністю залежить від того, як буде використано середнє значення для подальшого аналізу чи картографування.
whuber

0

Враховуючи припущення, що не відомі жодні параметри, що визначають нахил, будь-який статистик скаже використовувати нахил, який мінімізує відхилення RMS даних від нього. (Зрозуміло, приклади Уубера не є кваліфікованими, оскільки він обрав генеровані математично сформовані форми, але для реальних земельних форм припущення про невідомі параметри має бути дійсним.)


Ця відповідь цінується, але я думаю, що вона неправильно розуміє ситуацію. Найбільш суттєво, що ці нахили не використовуються для встановлення кривих: поняття "RMS відхилення даних" просто не застосовується. По-друге, я вибрав якісні типи рельєфу, щоб охопити широкий спектр того, що дійсно буде зустрічатися, тому я стверджую, що вони дають корисну інформацію про те, чого очікувати. Реальні набори даних не дуже сприяють розумінню того, що тут відбувається, тому що немає такого поняття, як "справжній" середній нахил. Головне питання - які середні показники будуть корисними чи інформативними.
whuber

1
До речі, я вважаю, що я маю певну кваліфікацію статистики. Це не робить мою думку з цього приводу ні кращою, ні гіршою: як і з будь-яким іншим, мені потрібно це зробити чітко і об'єктивно, наскільки я можу, і я цілком сприйнятливий до того, що я помиляюся і маю змінити свою думку: - ). Я просто пропоную цей пункт як протилежне вашому зауваженню "будь-який статистик".
whuber

Я думаю, питання про те, що підходить корисно, залежить від того, для якого схилу потрібно скористатися. Наприклад, для потенціалу падіння землі, наприклад, більш круті схили будуть зважуватися вище порівняно з м'якими схилами відповідно до моделі пониження та похилого схилу, тоді підхід RMS повинен відповідати. Інші вагові моделі будуть використовуватися відповідно до інших цілей. Коротше кажучи, моделюю все, що ми знаємо, зважуючи чи іншими способами, а потім покладатися на RMS як модель для всього, чого ми не маємо, - це те, що я пропоную.
johnsankey

Я погоджуюся з передумовою цього коментаря, Джон, але я не бачу, як випливає ваш висновок. Якщо більш круті схили мають отримувати більш важкі ваги, то, здається, RMS - це саме те, чого ви не хочете робити, оскільки він зважує всі відхилення однаково, незалежно від нахилу. Більше того, RMS, як квадратична функція втрат, не може бути універсальною заміною того, чого можуть досягти інші методи, включаючи нелінійні повторні вираження нахилу та використання альтернативних функцій втрат (як, наприклад, використовуються надійні методи підгонки).
whuber

RMS включає ваги
johnsankey
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.