У [1, §3.2] Девід Фрідман пропонує принципово негативну відповідь на ваше запитання. Тобто жодна (проста) статистична модель чи алгоритм не змогла б вирішити проблему Джона Сноу. Проблема Сноу полягала в тому, щоб розробити критичний аргумент, що підтверджує його теорію про те, що холера є інфекційною хворобою, що переноситься водою, проти пануючої теорії міазми його доби. (Розділ 3 у [1] під назвою "Статистичні моделі та шкіра взуття" також доступний у раніше опублікованій формі [2] тут .)
У цих кількох коротких сторінках [1, с.47–53], значна частина яких є розширеною цитатою самого Джона Сноу, Фрідман стверджує, що «те, що Сніг насправді робив у 1853–54, навіть цікавіше, ніж байка [широкого Вуличний насос]. " Що стосується спірних статистичних доказів (крім цього обговорюються й інші попередні позиції, такі як ідентифікація випадків індексу тощо), Сніг використовував природні зміни, щоб здійснити справді чудовий квазіексперимент.
Виявляється, в більш ранні часи в Лондоні існувала сильна конкуренція між компаніями з водопостачання, і це призвело до просторового змішування водопроводу, який був (за словами Сноу) "найбільш інтимним видом".
Труби кожної компанії йдуть по всіх вулицях і майже до всіх дворів і провулків. Кілька будинків постачає одна компанія, а кілька - інша, згідно з рішенням власника чи окупатора в той час, коли Водні компанії активно конкурували.
...
Оскільки в будинках чи людях, які отримують водопостачання, або в будь-яких фізичних умовах, в яких вони оточені, немає різниці, очевидно, що не міг бути розроблений експеримент, який би більш ретельно перевірив вплив водопостачання на прогрес холери, ніж це, які обставини поставили готовими перед спостережником.
—Джон Сноу
Іншим критично важливим елементом «природних змін» Джона Сноу, який було використано в цьому квазі-експерименті, було те, що одна водопровідна компанія мала водозабір на Темзу за течією скидів стічних вод , тоді як інша мала за кілька років до того, як перенесла споживання вгору за течією . Я дозволю вам здогадатися, що було з таблиці даних Джона Сноу!
| Кількість | Холера | Смерть на рік
Компанія | будинки | смертей | 10000 будинків
-------------------------------------------------- --------
Southwark & Vauxhall | 40,046 | 1263 | 315
Ламбет | 26,107 | 98 | 37
Відпочинок в Лондоні | 256,423 | 1422 | 59
Як зауважує Фрідман,
Як частина статистичних технологій, [наведена вище таблиця] аж ніяк не примітна. Але історія, яку вона розповідає, дуже переконлива. Сила аргументації випливає з ясності попередніх міркувань, об'єднання безлічі різних доказів та кількості шкіряного взуття, яке Сніг був готовий використати для отримання даних. [1, с.51]
Ще один момент природних змін, що використовуються Снігом, стався у часовому вимірі: вищезазначене переїзд водозабору відбулося між двома епідеміями, що дозволило Снігу порівняти воду однієї та тієї самої компанії та без додаткової каналізації. (Дякую Філіпу Б. Старку, одному автору [1], за цю інформацію через Twitter . Дивіться цю його онлайн-лекцію .)
Це питання також дає повчальне дослідження на відміну між дедуктивізмом та індуктивізмом , про що йдеться у цій відповіді .
Фрідман Д, Коллієр Д, Сехон Дж. С., Старк ПБ. Статистичні моделі та причинно-наслідкові умовиводи: діалог із суспільними науками. Кембридж; Нью-Йорк: Cambridge University Press; 2010 рік.
Фрідман DA. Статистичні моделі та шкіра взуття. Соціологічна методологія . 1991; 21: 291-313. doi: 10.2307 / 270939. Повний текст