Про що ви робите висновок, якщо дані є IID, походить із зовнішньої інформації, а не з самих даних. Вам, як вченому, потрібно визначити, чи обґрунтовано припускати дані IID виходячи з того, як дані збиралися та інша зовнішня інформація.
Розглянемо кілька прикладів.
Сценарій 1: Ми генеруємо набір даних незалежно від одного розподілу, який є сумішшю двох нормалей.
Сценарій 2: Ми спочатку генеруємо гендерну змінну з біноміального розподілу, потім у чоловіків і жінок ми самостійно генеруємо дані від нормального розподілу (але нормальні показники для чоловіків і жінок різні), потім видаляємо або втрачаємо гендерну інформацію.
У сценарії 1 дані є IID, а в сценарії 2 дані явно не ідентично розподіляються (різні розподіли для чоловіків і жінок), але 2 розподіли для двох сценаріїв не відрізняються від даних, ви повинні знати, як дані було створено для визначення різниці.
Сценарій 3: Я беру просту випадкову вибірку людей, які живуть у моєму місті, і здійснюю опитування та аналізую результати, щоб зробити висновки про всіх людей у місті.
Сценарій 4: Я беру просту випадкову вибірку людей, які живуть у моєму місті, і здійснюю опитування та аналізую результати, щоб зробити висновки про всіх людей в країні.
У сценарії 3 суб'єктів вважали б незалежними (проста випадкова вибірка сукупності, що цікавить), але в сценарії 4 вони не вважалися б незалежними, оскільки вони були вибрані з невеликої підгрупи населення, що цікавить, і географічна близькість, ймовірно, нав'язує залежність. Але два набори даних однакові, саме таким чином ми маємо намір використовувати дані, які визначають, чи є вони незалежними чи залежними в цьому випадку.
Тому немає можливості перевірити, використовуючи лише ті дані, щоб показати, що дані є IID, графіки та інша діагностика можуть показувати деякі типи не-IID, але відсутність цих даних не гарантує, що дані є IID. Ви також можете порівняти з конкретними припущеннями (нормальний IID легше спростувати, ніж просто IID). Будь-який тест все ще є виключенням, але невдача відхилити тести ніколи не доводить, що це IID.
Рішення про те, чи готові ви вважати, що умови IID мають бути прийняті, ґрунтуючись на науці про те, як дані збиралися, як вони стосуються іншої інформації та як вони будуть використовуватися.
Зміни:
Ось ще один набір прикладів для неідентичних.
Сценарій 5: дані є залишками з регресії, де є гетеросцедастичність (дисперсії не рівні).
Сценарій 6: дані походять від суміші нормалів із середнім значенням 0, але різними варіаціями.
У сценарії 5 ми чітко бачимо, що залишки не розподіляються однаково, якщо ми побудуємо залишки на пристосованих значеннях або інших змінних (предиктори або потенційні прогноктори), але самі залишки (без зовнішньої інформації) не відрізнятимуться від сценарію 6.