Моє запитання можна переосмислити як "як оцінити помилку вибірки за допомогою великих даних", особливо для публікації журналу. Ось приклад для ілюстрації виклику.
З дуже великого набору даних (> 100000 унікальних пацієнтів та їх призначених ліків із 100 лікарень) я зацікавився оцінити частку пацієнтів, які приймають конкретний препарат. Отримати цю пропорцію просто. Її довірчий інтервал (наприклад, параметричний або завантажувальний) є неймовірно щільним / вузьким, оскільки n дуже великий. Хоча пощастило мати великий розмір вибірки, я все ще шукаю спосіб оцінити, представити та / або візуалізувати деякі форми ймовірностей помилок. Хоча видавати / візуалізувати довірчий інтервал (наприклад, 95% ДІ: .65878 - .65881) видається непосильним (якщо не вводити в оману), але також не представляється неможливим уникнути деяких тверджень про невизначеність.
Будь ласка, дайте мені знати, що ви думаєте. Буду вдячний за будь-яку літературу на цю тему; способи уникнути надмірної впевненості в даних навіть при великому розмірі вибірки.