Інтервали довіри, коли розмір вибірки дуже великий

14

Моє запитання можна переосмислити як "як оцінити помилку вибірки за допомогою великих даних", особливо для публікації журналу. Ось приклад для ілюстрації виклику.

З дуже великого набору даних (> 100000 унікальних пацієнтів та їх призначених ліків із 100 лікарень) я зацікавився оцінити частку пацієнтів, які приймають конкретний препарат. Отримати цю пропорцію просто. Її довірчий інтервал (наприклад, параметричний або завантажувальний) є неймовірно щільним / вузьким, оскільки n дуже великий. Хоча пощастило мати великий розмір вибірки, я все ще шукаю спосіб оцінити, представити та / або візуалізувати деякі форми ймовірностей помилок. Хоча видавати / візуалізувати довірчий інтервал (наприклад, 95% ДІ: .65878 - .65881) видається непосильним (якщо не вводити в оману), але також не представляється неможливим уникнути деяких тверджень про невизначеність.

Будь ласка, дайте мені знати, що ви думаєте. Буду вдячний за будь-яку літературу на цю тему; способи уникнути надмірної впевненості в даних навіть при великому розмірі вибірки.

confidence-interval large-data reporting

— так2015
джерело

7

Ви можете уникнути зайвої впевненості, нагадуючи, що помилки відбору проб залишаються недоторканими. Якщо у вибірці та вимірюванні є упередження, вони все ще є. Крім того, незалежно від того, чи вважаєте ви унікальних (я б сказала «відмінних») пацієнтів, або спостереження, визначені іншим способом, існують (я припускаю) кластерні структури, що поєднують препарати для одного пацієнта та препарати, які даються разом будь-яким способом, який не враховуються найпростішими розрахунками довірчого інтервалу. У мене немає рішень, як оцінити це за винятком порівняння з іншими наборами даних та документування виробництва даних.

— Нік Кокс

10

Ця проблема з'явилася і в деяких моїх дослідженнях (як моделювач епідемій я маю розкіш робити власні набори даних, і при достатньо великих комп'ютерах вони можуть бути по суті довільними розмірами. Кілька думок:

Що стосується звітності, я думаю, ви можете повідомити про більш точні довірчі інтервали, хоча корисність цього закону є сумнівною. Але це не помиляється, і з наборами даних такого розміру, я не думаю, що є багато закликів до того, щоб повідомити про обидва інтервали довіри попиту, а потім скаржитися, що ми насправді всі любимо, щоб вони були округлені до двох цифр тощо.
Що стосується уникнення надмірної впевненості, я думаю, що головне - пам’ятати, що точність і точність - це різні речі, а також уникати спроб зв'язати їх. Коли у вас є великий зразок, дуже спокусливо зануритися в те, наскільки дуже точним є оціночний ефект, і не думати, що це також може бути неправильним. Я думаю, що головне - упереджений набір даних матиме такий ухил при N = 10, 100, або 1000, або 100 000.

Вся мета великих наборів даних полягає в наданні точних оцінок, тому я не думаю, що вам потрібно ухилятися від цієї точності. Але ви повинні пам’ятати, що ви не можете покращити погані дані, просто зібравши більший обсяг поганих даних.

— Фоміт
джерело

Я думаю, що великий обсяг поганих даних все-таки кращий, ніж невеликий обсяг поганих даних.

— Аксакал

@Aksakal Чому? Точно неправильна відповідь все-таки помилкова.

— Фоміт

@Fomite - так, але ви впевненіші, що це неправильно :)

— Duncan

6

Ця проблема виникла у моїх власних рукописах.

1. Варіанти звітування: Якщо у вас є лише один або кілька ІС, які потрібно звітувати, то звітування "(наприклад, 95% ДІ: .65878 - .65881)" не є надмірно багатослівним, і воно підкреслює точність ІС. Однак якщо у вас є численні інтерфейси, то виписка з бланку може бути кориснішою для читача. Наприклад, я зазвичай повідомляю щось про ефект "при такому розмірі вибірки 95-відсоткова довіра похибки для кожної пропорції була менше +/- .010". Зазвичай я повідомляю про щось подібне у Методі, або в заголовку Таблиця або Фігура, або в обох.

2. Уникнення «надмірної впевненості» навіть при великому розмірі вибірки: із 100-відсотковою вибіркою теорема про центральну межу буде захищати вас під час подання звітів про ІС щодо пропорцій. Тож у ситуації, яку ви описали, вам повинно бути гаразд, якщо немає інших порушень припущень, про які я не знаю (наприклад, порушену ідентифікацію).

— Ентоні
джерело

0

Не повідомляйте про довірчі інтервали. Натомість повідомте точний розмір вибірки та пропорції. Читач зможе обчислити власні ІС будь-яким способом.

— Аксакал
джерело

4

Чому саме це міркування не слід застосовувати до всієї звітності про кількісні дані?

— whuber

@whuber, гарне запитання. Я все для відтворюваних досліджень, бажаю, щоб кожен опублікував свої набори даних.

— Аксакал

6

Я не мав на увазі це сприймати як пропозицію. Навіть якби кожен опублікував свої набори даних, вони б скасували свої наукові обов'язки, якби не змогли надати їх аналіз - і це включає аналіз невизначеності. Ви, здається, рухаєтесь у напрямку, який логічно закінчився б пропозицією, що вчені нічого не роблять, окрім публікації даних, без аналізу взагалі! Це закінчується як обвинувачення щодо рекомендації щодо не повідомляти про ІС. Це вказує на протилежне, що в будь-якому випадку слід пропонувати якийсь статистичний аналіз, незалежно від розміру вибірки.

— whuber

0

Розглянемо можливість, що пропорції 100 різних лікарень не збігаються з однаковим середнім значенням. Ви перевіряли на дисперсію між групами? Якщо між лікарнями існує відмірна різниця, то припущення, що зразки генеруються із звичайного нормального розподілу, не підтримується, і ви не повинні об'єднувати їх.

Однак якщо ваші дані дійсно походять із звичайно розподіленої великої вибірки, ви не збираєтесь знайти корисні "заяви про невизначеність" як властивість даних, а замислившись про те, чому або чому не слід узагальнювати вашу статистику - через деякі притаманні упередженості в колекції або відсутність стаціонарності тощо, на що слід звернути увагу.

— Джон Марк
джерело