Яку статистичну модель чи алгоритм можна використати для вирішення проблеми Джон Сноу Холера?


23

Мені цікаво дізнатись, як розробити географічне наближення якогось епіцентру на основі даних спалаху Джона Снігової Холери. Яке статистичне моделювання можна використовувати для вирішення такої проблеми без попереднього знання місця розташування свердловин.

Як загальна проблема, ви мали б доступний час, розташування відомих точок та пішохідну стежку спостерігача. Метод, який я шукаю, використав би ці три речі для оцінки епіцентру "спалаху".


2
Моделі кригінгу використовуються для географічного прогнозування. Це може бути місце для початку. Щоб включити інформацію про час, вам потрібно буде піти на крок далі і скористатися просторово-часовою моделлю (я їх ще не використовував).
Великий38

4
@ Великого Кригінгу було б важко застосувати тут: він не призначений для оцінки екстремуму, він також не підходить для геометрії часу ходьби по дорогах, що є актуальним, а також не пристосований для контролю важливих коваріатів, таких як щільність населення або кількість працівників у будівлях.
whuber

Цей пакет R може зацікавити github.com/lindbrook/cholera .
Девід К. Норріс

Відповіді:


25

Щоб не дати повну чи авторитетну відповідь, а просто стимулювати ідеї, я звітую про швидкий аналіз, який я зробив для лабораторних занять у просторовому курсі статистики, який я викладав десять років тому. Мета полягала в тому, щоб побачити, який ефект матиме точний облік ймовірних шляхів подорожі (пішки), порівняно з використанням евклідових відстаней, на порівняно простий дослідницький метод: оцінка щільності ядра. Де б пік (або піки) щільності був відносно насоса, ручку якого зняв Сніг?

Використовуючи досить високу роздільну здатність растрового зображення (2946 рядків по 3160 стовпчиків) карти Снігу (належним чином геореференції), я оцифрував кожну із сотень маленьких чорних трун, показаних на карті (знайшовши 558 з них за 309 адресами), присвоївши кожному край вулиці, що відповідає його адресі, та підбиття підсумків за адресою до кількості в кожному місці.

Точка карти вхідних даних

Після деякої обробки зображень для виявлення вулиць та провулків я провів просту гауссову дифузію, обмежену цими районами (використовуючи повторні фокусні засоби в ГІС). Це KDE.

Результат говорить сам за себе - йому навряд чи потрібна легенда, щоб пояснити це. (На карті показано багато інших насосів, але всі вони лежать поза цим видом, який зосереджений на районах найвищої щільності.)

Карта снігу, що показує щільність з кольором.


ОГО. Отже, підвести підсумок; 1. лінеаризувати шлях подорожі, 2. виконувати згладжування в одному вимірі, 3. розширити згладжування в двох вимірах, 4. середнє значення kde по ходу шляху?
cylondude

1
Згладжування виконували в 2D, але обмежували область, показану кольором. Є й інші способи зробити це, також подібні до вашого опису. Однак, не потрібно проводити середню оцінку щодо "подорожей по шляху" (що б там не було). Ця карта частково цікава тим, що вона поділяє властивості як одно-, так і двовимірної геометрії.
whuber

Для кожної точки А на вулицях підрахуйте кількість кроків один до одного точки В серед адресних місць. Підключіть цю кількість кроків до гауссової щільності і помножте це значення на кількість загиблих у B. Складіть усі ці продукти (тобто над усіма адресами B), щоб отримати щільність ядра в точці A. Зробіть це для всіх точок A на вулицях. Це щільність, яку ми бачимо в кожній точці на карті. Так?
Хатшепсут

2
B

2
@Hat Це не так, що у Гаусса є одиничний інтеграл, коли він обмежений до доріг та пішохідних доріжок! Тим самим він усічений і повинен бути переношений.
whuber

19

У [1, §3.2] Девід Фрідман пропонує принципово негативну відповідь на ваше запитання. Тобто жодна (проста) статистична модель чи алгоритм не змогла б вирішити проблему Джона Сноу. Проблема Сноу полягала в тому, щоб розробити критичний аргумент, що підтверджує його теорію про те, що холера є інфекційною хворобою, що переноситься водою, проти пануючої теорії міазми його доби. (Розділ 3 у [1] під назвою "Статистичні моделі та шкіра взуття" також доступний у раніше опублікованій формі [2] тут .)

У цих кількох коротких сторінках [1, с.47–53], значна частина яких є розширеною цитатою самого Джона Сноу, Фрідман стверджує, що «те, що Сніг насправді робив у 1853–54, навіть цікавіше, ніж байка [широкого Вуличний насос]. " Що стосується спірних статистичних доказів (крім цього обговорюються й інші попередні позиції, такі як ідентифікація випадків індексу тощо), Сніг використовував природні зміни, щоб здійснити справді чудовий квазіексперимент.

Виявляється, в більш ранні часи в Лондоні існувала сильна конкуренція між компаніями з водопостачання, і це призвело до просторового змішування водопроводу, який був (за словами Сноу) "найбільш інтимним видом".

Труби кожної компанії йдуть по всіх вулицях і майже до всіх дворів і провулків. Кілька будинків постачає одна компанія, а кілька - інша, згідно з рішенням власника чи окупатора в той час, коли Водні компанії активно конкурували.

...

Оскільки в будинках чи людях, які отримують водопостачання, або в будь-яких фізичних умовах, в яких вони оточені, немає різниці, очевидно, що не міг бути розроблений експеримент, який би більш ретельно перевірив вплив водопостачання на прогрес холери, ніж це, які обставини поставили готовими перед спостережником.

—Джон Сноу

Іншим критично важливим елементом «природних змін» Джона Сноу, який було використано в цьому квазі-експерименті, було те, що одна водопровідна компанія мала водозабір на Темзу за течією скидів стічних вод , тоді як інша мала за кілька років до того, як перенесла споживання вгору за течією . Я дозволю вам здогадатися, що було з таблиці даних Джона Сноу!

                     | Кількість | Холера | Смерть на рік
Компанія | будинки | смертей | 10000 будинків
-------------------------------------------------- --------
Southwark & ​​Vauxhall | 40,046 | 1263 | 315
Ламбет | 26,107 | 98 | 37
Відпочинок в Лондоні | 256,423 | 1422 | 59

Як зауважує Фрідман,

Як частина статистичних технологій, [наведена вище таблиця] аж ніяк не примітна. Але історія, яку вона розповідає, дуже переконлива. Сила аргументації випливає з ясності попередніх міркувань, об'єднання безлічі різних доказів та кількості шкіряного взуття, яке Сніг був готовий використати для отримання даних. [1, с.51]

Ще один момент природних змін, що використовуються Снігом, стався у часовому вимірі: вищезазначене переїзд водозабору відбулося між двома епідеміями, що дозволило Снігу порівняти воду однієї та тієї самої компанії та без додаткової каналізації. (Дякую Філіпу Б. Старку, одному автору [1], за цю інформацію через Twitter . Дивіться цю його онлайн-лекцію .)


Це питання також дає повчальне дослідження на відміну між дедуктивізмом та індуктивізмом , про що йдеться у цій відповіді .

  1. Фрідман Д, Коллієр Д, Сехон Дж. С., Старк ПБ. Статистичні моделі та причинно-наслідкові умовиводи: діалог із суспільними науками. Кембридж; Нью-Йорк: Cambridge University Press; 2010 рік.

  2. Фрідман DA. Статистичні моделі та шкіра взуття. Соціологічна методологія . 1991; 21: 291-313. doi: 10.2307 / 270939. Повний текст


1
+1, зазначаючи, що просто виявлення епіцентру було б недостатнім для вирішення "проблеми Джона Сноу", як заявлено. Теорія Міасма була однією з таких переважаючих теорій у той час, як вказує Девід. Для фальсифікації теорії міазми слід було б показати, що географічні показники не збільшуються із близькістю до річки. Сучасний підхід до цієї проблеми, можливо, використовував кригінг.
AdamO

Спасибі, @AdamO; але мені цікаво, як Кригінг міг би спричинити "інтимне" просторове змішування в цьому випадку, що майже здається протидієм безперервності, необхідній для застосування методики інтерполяції (такою, наскільки я розумію, що це Крінінг).
Девід К. Норріс

Можливо, я неправильно зрозумів слова Сноу: моя презумпція полягала в тому, що "інтимне змішування [джерел живлення водних насосів]" посилалося на майже ідеальну конструкцію блоку, де, розшаровуючись на відстань від річки, кожен концентричний прошарок міських кварталів мав принаймні кілька насоси постачальників A, B, C ... це пов'язане з підтримкою теорії про те, що забруднена вода викликає холеру. Кригінг відкинув би гіпотезу про міазму, показавши, що близькість до річки не пов'язана із збільшенням захворюваності на холеру. Це підтримується людьми, що поливають насоси: міазма не рухається трубою.
AdamO

2
@AdamO Насправді Вільям Фарр вивчав показники смертності від холери (з 1849 р.) І порівнював їх з висотою над річкою Темзи. Відповідність між цими змінними вражає і майже ідеально відповідає прогнозам теорії міазми. Дивіться Langmuir AD. Бактеріологічний огляд 25, 174, 1961 ( bmj.com/content/323/7327/1469.full#B4 ). У цій статті зазначається, що навіть до смерті доктора Сноу в 1858 році його теорія "не була прийнята в офіційних колах".
whuber

1
Велике спасибі за ці посилання, @whuber. За допомогою курації, зауважу, стаття Лангмюра - це відкритий доступ .
Девід К. Норріс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.