Тест на IID відбір проб


16

Як би ви перевірили чи перевірили, чи є вибірка IID (незалежна та ідентично розподілена)? Зауважте, що я не маю на увазі гауссових та ідентично розподілених, просто IID.

І ідея, яка мені спадає на думку, полягає в тому, щоб неодноразово розділити вибірку на дві під зразки однакового розміру, виконати тест Колмогорова-Смірнова і перевірити, чи розподіл p-значень є рівномірним.

Будь-який коментар щодо цього підходу та будь-яка пропозиція вітаються.

Роз'яснення після початку виграшу: Я шукаю загальний тест, який можна застосувати до даних, що не є часовими рядами.


Це дані часових рядів?
сьогодні.зуокас

@ gui11aume Ви пробували тест "очне яблуко"? Тобто побудуйте дані та подивіться, чи виглядають вони IID.
Макрос

Я ні. Я не впевнений, що ви маєте на увазі: побудуйте значення в порядку, в якому вони приходять (можливо, випадковим чином)? А потім перевірити відсутність яскравого візерунка?
gui11aume

1
Ви подивилися на "пробігу"? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
Stéphane Laurent

1
Вибачте. Я мав на увазі наступний тест на запуск: apprendre-en-ligne.net/random/run.html (але це написано французькою мовою)
Stéphane Laurent

Відповіді:


14

Про що ви робите висновок, якщо дані є IID, походить із зовнішньої інформації, а не з самих даних. Вам, як вченому, потрібно визначити, чи обґрунтовано припускати дані IID виходячи з того, як дані збиралися та інша зовнішня інформація.

Розглянемо кілька прикладів.

Сценарій 1: Ми генеруємо набір даних незалежно від одного розподілу, який є сумішшю двох нормалей.

Сценарій 2: Ми спочатку генеруємо гендерну змінну з біноміального розподілу, потім у чоловіків і жінок ми самостійно генеруємо дані від нормального розподілу (але нормальні показники для чоловіків і жінок різні), потім видаляємо або втрачаємо гендерну інформацію.

У сценарії 1 дані є IID, а в сценарії 2 дані явно не ідентично розподіляються (різні розподіли для чоловіків і жінок), але 2 розподіли для двох сценаріїв не відрізняються від даних, ви повинні знати, як дані було створено для визначення різниці.

Сценарій 3: Я беру просту випадкову вибірку людей, які живуть у моєму місті, і здійснюю опитування та аналізую результати, щоб зробити висновки про всіх людей у ​​місті.

Сценарій 4: Я беру просту випадкову вибірку людей, які живуть у моєму місті, і здійснюю опитування та аналізую результати, щоб зробити висновки про всіх людей в країні.

У сценарії 3 суб'єктів вважали б незалежними (проста випадкова вибірка сукупності, що цікавить), але в сценарії 4 вони не вважалися б незалежними, оскільки вони були вибрані з невеликої підгрупи населення, що цікавить, і географічна близькість, ймовірно, нав'язує залежність. Але два набори даних однакові, саме таким чином ми маємо намір використовувати дані, які визначають, чи є вони незалежними чи залежними в цьому випадку.

Тому немає можливості перевірити, використовуючи лише ті дані, щоб показати, що дані є IID, графіки та інша діагностика можуть показувати деякі типи не-IID, але відсутність цих даних не гарантує, що дані є IID. Ви також можете порівняти з конкретними припущеннями (нормальний IID легше спростувати, ніж просто IID). Будь-який тест все ще є виключенням, але невдача відхилити тести ніколи не доводить, що це IID.

Рішення про те, чи готові ви вважати, що умови IID мають бути прийняті, ґрунтуючись на науці про те, як дані збиралися, як вони стосуються іншої інформації та як вони будуть використовуватися.

Зміни:

Ось ще один набір прикладів для неідентичних.

Сценарій 5: дані є залишками з регресії, де є гетеросцедастичність (дисперсії не рівні).

Сценарій 6: дані походять від суміші нормалів із середнім значенням 0, але різними варіаціями.

У сценарії 5 ми чітко бачимо, що залишки не розподіляються однаково, якщо ми побудуємо залишки на пристосованих значеннях або інших змінних (предиктори або потенційні прогноктори), але самі залишки (без зовнішньої інформації) не відрізнятимуться від сценарію 6.


Перша частина цієї відповіді, зокрема, здається мені трохи заплутаною (або заплутаною). Будучи н.о.р. добре визначений математичним властивістю з кінцевого безлічі випадкових величин . Ваші сценарії 1 і 2 ідентичні, якщо випадкові змінні у другому випадку отримуються "після втрати гендерної інформації". Вони в обох випадках!
кардинал

GregSnow Я не повністю згоден з вашим твердженням. Можливо, ви знаєте, що дані надходять із послідовності однаково розподілених випадкових змінних. Ви точно не знаєте, яка модель її породила. Можливо, вони генеруються незалежно або по черзі походять із стаціонарного часового ряду. Щоб вирішити, який випадок, припустімо, що ви знаєте, що однаковий розподіл є нормальним. Тоді обидві можливості потрапляють під категорію стаціонарної послідовності, і це буде iid, якщо і лише всі ненульові автокореляції затримки становлять 0. Цілком розумно перевірити, чи є кореля
Майкл Р. Черник

2
@cardinal, ви погоджуєтесь, що дані в сценарії 2 не розподіляються однаково перед тим, як втратити гендерну інформацію? Таким чином, у нас був би випадок, коли вони не тотожні, але єдиний спосіб визначити різницю - це використання інформації поза зміною, яку шукають (стать у цьому випадку). Так, IID є чітко визначеною математичною властивістю, але, таким чином, це ціле число, чи можете ви перевірити, чи є точка 3 даних цілим числом, яке зберігається як число з плаваючою комою або безперервне значення, яке було округлене без зовнішньої інформації про те, куди воно прийшло з.
Грег Сніг

2
ZXiXj,ijXi|ZXj|ZZZ

Але все, що ви сказали вище, використовує інформацію про те, як збиралися / генерувалися дані, а не лише самі дані. І навіть якщо ми маємо дані, що підтверджують, що не існує автокореляції часових рядів, яка б нічого не розповідала про просторову кореляцію чи інші типи незалежності. Чи можемо ми реально протестувати на кожен можливий тип залежності та отримати значущі результати? чи ми повинні використовувати інформацію про те, як дані були зібрані для орієнтації на тести, які тести є найбільш ймовірними?
Грег Сніг

5

Якщо дані мають упорядкування індексів, ви можете використовувати тести на білий шум для часових рядів. По суті, це означає перевірку того, що автокореляції зовсім не нульові відставання дорівнюють 0. Це обробляє частину незалежності. Я думаю, що ваш підхід намагається в основному вирішити ідентично розподілену частину припущення. Я думаю, що з вашим підходом є деякі проблеми. Я думаю, вам потрібно багато розщеплення, щоб отримати достатньо р-значень для перевірки на рівномірність. Тоді кожен тест на KS втрачає силу. Якщо ви використовуєте розщеплення, які перекриваються на частинах набору даних, тести будуть співвідносні. При невеликій кількості розщеплень тесту на рівномірність не вистачає потужності. Але з багатьма розщепленнями тест на рівномірність може бути потужним, але тести на КС не будуть. Також здається, що такий підхід не допоможе виявити залежність між змінними.

@ gu11aume Я не впевнений, що ти просиш із загальним тестом на нечасові серії. Просторові дані забезпечують одну форму даних, що не є часовими рядами. Там може бути розглянута функція під назвою варіограма. Для одновимірних послідовностей я не бачу великої різниці між послідовностями, упорядкованими часом, порівняно з будь-яким іншим способом впорядкування даних. Функцію автокореляції ще можна визначити та перевірити. Коли ви говорите, що хочете перевірити незалежність у вибірці, я думаю, у вас є порядок, в якому збираються зразки. Тому я думаю, що всі одновимірні випадки працюють однаково.


2
(+1), оскільки це я думав, але Re: "Якщо дані мають впорядкування індексів, ви можете використовувати тести на білий шум для часових рядів. По суті, це означає тестування, що автокореляція на всіх ненульових відставаннях дорівнює 0." - ця логіка застосовується лише тоді, коли ви маєте справу зі стаціонарним часовим рядом, правда? В іншому випадку ви можете отримати оманливі результати щодо відсталих кореляцій. Наприклад, що робити, якщо лише "пізніша" частина часового ряду була автокорельована?
Макро

1
@Macro Я подумав, що це ви мали на увазі на основі свого запитання до ОП. Але я не вважав за потрібне чекати його відповіді, щоб вказати на це. Він застосовується, коли ви шукаєте незалежності. Але я розумію вашу думку. На практиці ви перевіряєте лише перші k лаги. Якщо серія була нерухомою, кореляція знизиться з k, але не так для нестаціонарних рядів. Так, принаймні теоретично, ви б пропустили кореляцію у великих відставаннях для нестаціонарного ряду.
Майкл Р. Черник

2
cor(yt,ys)=f(s,t)f(s,t)|st|

Дякую за вашу відповідь, Майкл! Ви маєте рацію: якщо дані є часовим рядом, найкращим підходом є перевірка автоматичної кореляції. Що стосується вашої критики щодо розділеного підходу KS, ви також маєте бажання. Таким чином, ми все ще не залишаємо тесту в загальному (не часовому ряді) випадку, здається.
gui11aume

2
Перша ненульова автокореляція - це відставання 60, а лише інші кратні 60. Якщо часовий ряд має довжину 55, ми навіть не можемо спостерігати два точкові 60 відставання. Так що ми не можемо перевірити, чи відповідає кореляція відставання 60 чи ні. Якщо довжина серії становить 65, ми можемо оцінити кореляцію відставання 60, але виходячи лише з 5 пар відставання 60. Отже, дисперсія в оцінці велика, і ми не матимемо сили виявити цю ненульову кореляцію.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.