Перевірка на значну різницю співвідношень нормально розподілених випадкових величин


9

Пов'язано з аналізом коефіцієнтів змінних та Як параметризувати відношення двох нормально розподілених змінних або зворотну одну? .

Припустимо, у мене є декілька зразків із чотирьох різних безперервних випадкових розподілів, які ми можемо вважати приблизно нормальними. У моєму випадку вони відповідають деяким показникам продуктивності двох різних файлових систем (скажімо, ext4 та XFS), як із шифруванням, так і без нього. Метрикою може бути, наприклад, кількість файлів, створених за секунду, або середня затримка для деяких файлових операцій. Можна припустити, що всі зразки, отримані з цих розподілів, завжди будуть суто позитивними. Назвемо ці дистрибуції де та .Перфfстуpе,енcrуpтiонfстуpе{хfс,ехт4}енcrуpтiон{crуpто,ноcrуpто}

Тепер моя гіпотеза полягає в тому, що шифрування сповільнює одну з файлових систем більшим фактором, ніж іншу. Чи є якийсь простий тест на гіпотезу ?Е[Перфхfс,crуpто]Е[Перфхfс,ноcrуpто]<Е[Перфехт4,crуpто]Е[Перфехт4,ноcrуpто]


Здається, якийсь текст видалено з середини цього питання. Як ви думаєте, ви могли б відновити його?
whuber

Я думаю, що "Таким чином" залишилося там помилково, принаймні я не можу подумати, що хотів би додати до цього. Напевно, це було те, що я нарешті перейшов до другого абзацу.
Самі Лієдес

Ви можете помістити узагальнену лінійну модель для нормального розподілу з функцією зв’язку журналу.
onestop

1
"Кількість файлів" і "середня затримка" не можуть бути нормально розповсюджені (а також не можуть бути негативними для початку). Обидва, ймовірно, дещо правильні перекоси. Кількість файлів - це дискретна кількість.
Glen_b -Встановіть Моніку

Відповіді:


12

Однією з альтернатив точної відповіді Стаска є використання тесту на перестановку. Першим кроком є ​​визначення тестової статистики , можливо:Т

Т=Пеrf^ехт4,crуpтоПеrf^ехт4,ноcrуpто-Пеrf^хfс,crуpтоПеrf^хfс,ноcrуpто

де - це, мабуть, середнє значення вибірки спостережень тощо. (Це відповідає вашому визначенню гіпотези як співвідношення очікування, а не альтернативна можливість очікування співвідношення - якою альтернативою може бути те, що ви дійсно хочете.) Другим кроком є ​​безладна перестановка міток у даних багато разів, скажімо, та обчислюють для кожної перестановки. Останнім кроком є ​​порівняння початкового із спостережуваним ; перестановка оціненого р-значення буде частка . Пеrf^ехт4,crуpтоПерфехт4,crуpтоехт4, хfсi=1,,10000ТiТТiТiТ

Тест на перестановку позбавить вас від опори на асимптотику, але, звичайно, залежно від розміру вибірки (і даних, звичайно, також), метод дельти, який я також періодично використовую, може працювати чудово.


Це також гарна пропозиція!
Стаск

Зауважимо, що відношення двох центрованих нормальних змінних є змінною Коші.
Сіань

1
@ Xi'an: Чи зрозуміло, що ми можемо припустити, що вони тут незалежні? Як ви знаєте, це було б необхідним для досягнення результату (і мати шанс бути корисним).
кардинал

@cardinal: так, дійсно, вони мали б бути незалежними!
Сіань

1
Як дуже снобський технічний момент - перестановка працює трохи краще, коли ваша тестова статистика є ключовою / не передбачає невідомих параметрів / стабілізується дисперсією ... принаймні під нулем. За допомогою пропорцій ви можете зробити перетворення дуги на гріх. З суворо позитивними безперервними кількостями, я б, напевно, почав із журналів. Але це справді глазур на торті.
Стаск

4

Ви можете обчислити (асимптотичну) стандартну похибку співвідношення за допомогою методу delta . Якщо у вас є дві випадкові змінні і такі у розподілі (що було б у випадку, якщо у вас є незалежні дані, але це також має місце в більш загальному випадку кластерні дані, коли ви виконували свої тести на різних машинах), то для співвідношення з аналогом нас є ХY

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
r=Y¯/X¯ro=μY/μX
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
Якщо і незалежні, як це можна вважати у вашому випадку, тоді цей вираз дещо спрощується, випадаючи , так ми отримуємо , що квадратичні коефіцієнти варіації підсумувати: Це має додатковою перевагою є те, що розміри вибірки можуть бути різними. Крім того, якщо ваші RHS та LHS є незалежними, ви можете сформувати -test статистику дляXYσXY
СV2[r]=СV2[Х¯]+СV2[Y¯]
zН0: немає різниці, беручи різницю коефіцієнтів і діливши її на відповідну стандартну похибку, отриману з цих резюме.

Я сподіваюся, що ви можете взяти його звідти і виконати решту зворотних обчислень конвертів, щоб отримати остаточну формулу.

Зауважимо, що результат є асимптотичним, а відношення - упередженим у малих вибірках. Зсув має порядок і зникає асимптотично в порівнянні з мінливістю вибірки, що має порядок .rr0О(1/н)О(1/н)


Дякую за відмінну та освічуючу відповідь! Я думаю, що я підберу тест на перестановку jbowban для своїх досліджень, тому що я думаю, що я краще розумію це та його обмеження, але метод delta, безумовно, виглядає як щось, що мені потрібно вивчити та з'ясувати.
Самі Лієдес

@stask це можна було зробити де-небудь? stats.stackexchange.com/questions/398436/…
Xavier Bourret Sicotte

Ксав'є, я думаю, @ usεr11852 дав хорошу відповідь. Я не буду турбуватися додавати до цього.
Стаск

@StasK - за яких умов дійсні умови, про які ви заявляєте у своїй відповіді? Чи гарантована конвергенція коефіцієнта відношення попереднім припущенням та методом Дельта?
Xavier Bourret Sicotte

Це асимптотика ... ніколи нічого не гарантується, а межі помилок важко отримати неможливо. Весь метод дельти (або будь-який інший слабкий результат конвергенції) говорить про те, що при збільшенні розміру вибірки різниця між фактичним кінцевим розподілом вибірки від асимптотичного розподілу зменшиться. Це може означати, що при збільшенні розміру вибірки з 1000 до 10000 вертикальна різниця між cdfs знизиться з 0,2 до 0,1, а остання досі неприйнятна для практичних цілей. Або це може означати, що різниця переходить від 0,01 до 0,001.
StasK

0

Співвідношення нормальних змінних розподілено Коші. Знаючи це, ви можете просто провести тест на фактор Байеса.

Це була досить спонтанна ідея. Зараз я не впевнений у механізмі генерації даних. Ви встановлюєте різні файлові системи на одному ПК та потім орієнтуєтесь на два випадки, щоб ми могли припустити ієрархічну структуру даних?

Крім того, я не впевнений, що шукати співвідношення насправді має сенс.

А потім ви написали співвідношення очікуваних значень, тоді як я подумав про очікуване значення коефіцієнтів. Я думаю, мені потрібна додаткова інформація про генерування даних, перш ніж рухатись далі.


1
Співвідношення нормалей є лише Коші, якщо (а) вони незалежні і (b) мають однакову дисперсію.
кардинал

У Сіань була така ж думка, як я здогадуюсь ...
Joint_p

1
Незрозуміло (мені щонайменше), що існує будь-яка така структура незалежності або що вони матимуть нульове значення. Можливо, якщо ви зможете розширити свою відповідь, це допоможе зрозуміти підхід, який ви пропонуєте. :)
кардинал

1
@cardinal - Я вважав, що співвідношення незалежних нормалів із нульовою середньою є каучуком із нульовою медіаною та параметром масштабу, рівним відношенню нормальних стандартних відхилень. Якщо вони мають нульове значення, то це не кашлю.
ймовірністьлогічний

@prob: (+1) Ви праві! Дякуємо, що це зробили. У першому коментарі я скинув "стандартну" та "нульову середню" (останню вдалося перетворити на другу).
кардинал

0

У випадках, коли ви не можете виконати перестановки, наприклад, коли розмір вибірки створює мільйони можливостей, іншим рішенням буде Монте-Карло.

Нульова гіпотеза полягає в тому, що різниці в швидкості між ними немає ехт4 і хfс, для ноcrуpто і crуpто. Тому середнє співвідношенняехт4хfс з всіх ноcrуpто зразки не відрізняються від зразків crуpто.

Н0:Тобсеrvег=хноcrуpтонноcrуpто-хcrуpтонcrуpто=0

де х=ехт4хfс

і н=самpлесizе

Якщо Н0 вірно, випадковим чином підбираючи результати для співвідношень ноcrуpто або crуpто також призведе до Тобсеrvег=0. Можна було б обчислити:

Тrесамpлiнг=х1rангом+хнrангомнноcrуpто-х1rангом+хнrангомнcrуpто

і виконати, скажімо, 10 000 раундів переустановки. Отриманий розподіл Тrесамpлiнг Значення - довірчий інтервал для Н0. Різниця міжноcrуpто і crуpто Коефіцієнт є значущим, якщо розрахований Тобсеrvег значення лежить поза діапазоном, наприклад, 95% (p<0,05) з Тrесамpлiнг значення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.