Візуалізація робочого процесу для висновку

Я надаю статистичну підтримку відділу охорони здоров’я. Як ви можете собі уявити, ми регулярно складаємо багато карт. Для мене карти - це лише інший вид візуалізації даних - корисний для розуміння даних, для генерування та перевірки гіпотез тощо. Але ми не часто переслідуємо тестування фактичного моделювання та гіпотез .

Як ви / ваша організація йдете до цього? Як виглядає робочий процес, що включає висновок? Хто бере участь? Які інструменти ви використовуєте? Як би це ідеально виглядало, якби ви мали свій шлях?

Дякую!

EDIT

Щоб було зрозуміло, мені цікаво різні стратегії переходу від просторових даних до формальних, статистичних тестів гіпотез про те, що відбувається у світі. Наприклад, скажімо, я намагаюся націлити на навчальну кампанію з метою підвищення тесту на туберкульоз. Я (особисто) виклав би випадки захворювання на туберкульоз проти коваріатів, що представляють інтерес (скажімо, середній дохід або відсоток резидентів іноземних громадян) і спробував би перевірити, чи існують якісь закономірності.

Я можу або не можу знайти жодного; але в кінцевому рахунку я буду будувати модель для оцінки зв'язку між цими коваріатами та кількістю демографічних даних. Це важливий крок через те, наскільки хороші люди знаходять закономірності, де їх немає, або знаходять нецікаві. Я знаю, як це зробити самостійно, але мені цікаво, як різні організації це інституціоналізують (якщо взагалі).

spatial-statistics workflow

— Метт Паркер
джерело

Чудове запитання!

— whuber

Ви хочете сказати, що вам потрібно мати робочий процес, щоб у разі виникнення спалаху якоїсь хвороби, для якої доступний обмежений запас вакцини, потрібно мати можливість показати, що ви оптимально поширюєте вакцину?

— Кірк Куйкендалл

Загалом, мене просто цікавить, як люди включають статистичні умовиводи у свої процеси картографування. Те, що ви описуєте, це, безумовно, один із можливих сценаріїв, але є багато інших, і я навіть не особливо зацікавлений у відповідях з епідеміології.

— Метт Паркер

Дуже цікаве запитання!

По-перше, ваше запитання натякає на те, що я називаю "видобуток даних", і я вважаю, що варто чітко відновлювати проблему, оскільки деякі люди, можливо, цього не отримали: з будь-яким набором даних (не повинен бути просторовим) для досягнення статистично достовірних Конвенція стосується того, що вона повинна бути з 95% вірогідністю. Однак, якщо ви робите 20 тестів, то шанс високий, що принаймні один із результатів, отриманих «статистично достовірними», обумовлений чистим шансом. Тож його погана практика грати з набором даних (у ГІС це було б відображення) для візуалізації багатьох можливих зв’язків між змінними, пошуку цікавого та підключення до статистики та процитування результату так, ніби це був єдиний тест зроблено. Ви все ще можете скористатися результатом, але вам доведеться враховувати кількість проведених тестів.

Це те, за чим ти їхав?

З'являється ваше запитання, щоб запитати, як люди формалізуються, уникаючи цієї проблеми. Моя відповідь полягає в тому, що варіант «зовсім не», який ви згадуєте, є загальним. За своїм досвідом медичні статистики (наприклад, моя подруга) застосовують набагато більш високий рівень жорсткості, ніж в інших областях, я підозрюю, що всі види картографічних даних за межами охорони здоров'я здійснюються без будь-якого формального врахування проблема з формулою статистики, яка сліпо застосовується без належного розуміння процесу. Приходить геологічний приклад:

Я прочитав рецензований документ, де автори розглядали, як вихід свердловини (кількість води, яку можна було перекачувати) пов'язаний з геологічними та просторовими впливами в Африці, наприклад, товщина шару гравію, який був прокопаний до удару породової породи. Ідея полягала в тому, щоб допомогти свердлильним свердловинам, щоб вони могли орієнтуватися на найкращі місця для свердловин. Автори відверто видобували дані, поєднуючи всілякі змінні, щоб побачити, які з них придумали 95% рівень довіри, і (я припускаю) жоден з рецензентів не сумнівався в достовірності результатів. Тому їх висновки були абсолютно недостовірними.

Сподіваюся, що це цікавить

— Тревезі
джерело

Чи можете ви пояснити трохи більше, чому описуваний вами документ є недостовірним? Мені не очевидно, чому це так. Якщо відносини існують статистично, чи не має значення, яку "розумову модель" ви використовували для її ідентифікації? Я розумію, що це не пояснює механізм, але це окреме питання.

— djq