Чи відповідає це одне значення такому розподілу?


10

це здається дуже наївним питанням, але мені важко бачити відповідь.

У мене є один набір з 30 значень. Незалежно я отримав 31-е значення. Нульова гіпотеза полягає в тому, що значення 31-го є частиною того ж розподілу. Альтернативою є те, що його різне. Я хочу якусь р-величину чи міру ймовірності.

Деякі думки у мене були:

  • Це схоже на те, щоб хотіти зробити двопробний t-тест - за винятком того, що для другого зразка я маю лише одне значення, а 30 значень не обов'язково зазвичай розподіляються.
  • Якби замість 30 вимірювань у мене було 10000 вимірювань, ранг одного вимірювання міг би дати корисну інформацію.

Як я можу обчислити цю ймовірність або p-значення?

Дякую! Яник


4
Ви просите інтервал прогнозування . Ваша друга думка призводить до непараметричних інтервалів прогнозування (про які я вважаю, раніше не згадувалося на цьому сайті).
whuber

Що ще ви можете сказати нам про ваше населення? Чи всі цінності позитивні? Чи очікуєте ви симетричного? Унімодальний?
soakley

Дякую та вибачте, я повинен був надати більше інформації. Ми переглядаємо інтервали прогнозування. В основному ми маємо тривалість прогнозу фокальних генів. І довжини подібних генів, знайдених у базах даних. Отже, всі числа є натуральними числами. У легкому випадку розподіл довжин є одномодальним. Насправді вони часто не є; на цьому етапі можна припустити, що вони є. Деякі сюжети розповсюдження показані тут: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm,

Я не переконаний, що ми хочемо "інтервал прогнозування". Ми не хочемо прогнозувати ... і ми не хочемо інтервалу ...?
Янік Вурм

1
Не слід інтерпретувати технічні умови. За визначенням, "інтервал прогнозування" будується з значень таким чином, що при передбачуваному спільному розподілі всіх значень шанс, що 31-е значення лежить всередині дорівнює заданій цілі, наприклад 95%. Якщо, власне, значення 31-го не лежить в межах , ви можете зробити висновок, що або (i) ви не пощастили (що мав лише 5% шансу статися до того, як ви зібрали дані), або ще (ii) це насправді не є у випадку, якщо значення 31-го має розподіл, який ви припускали, що це зробили: і це те, що ви хочете перевірити. I3031II
качан

Відповіді:


7

У одномовному випадку нерівність Височанського-Петуніна може дати вам приблизний інтервал прогнозування. Ось сайт вікіпедії: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

Використання призведе до приблизно 95% інтервалу прогнозування.λ=3

Таким чином, ви оцінюєте середнє та стандартне відхилення вашої сукупності та просто використовуєте вибірковий середній плюс або мінус як свій інтервал.x¯3s

З цим підходом є кілька проблем. Ви насправді не знаєте середнього або стандартного відхилення; ви використовуєте кошториси. І взагалі у вас немає унімодальних розподілів, тобто вам доведеться використовувати спеціалізовані версії нерівності Чебишева. Але принаймні у вас є відправна точка.

У загальному випадку Конійн (американський статистик, лютий 1987 р.) Заявляє, що статистика замовлень може використовуватися як інтервал прогнозування. Тож - інтервал передбачення для з тим, що Конійн називає розміромРозмір визначається як "найбільша нижня межа (що стосується сукупності спільних розподілів, які допускаються) ймовірності того, що інтервал охопить значення, яке має прийняти ". При такому підході інтервал прогнозування 93,6% буде[x(i),x(j)]Xjin+1.X[x(1),x(30)].

Він також дає підхід, який приписується Saw, Yang і Mo: з деталями щодо висвітлення, наведеного у статті.

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

Наприклад, при використання дасть покриття понад 90%.n=30,λ=3.2


Це, мабуть, є невірним застосуванням нерівності: воно передбачає, що середнє значення та дисперсія відомі , де дисперсія може бути оцінена лише з даних у цьому контексті. Різниця може бути величезною, особливо з невеликими наборами даних. У своїх симуляційних дослідженнях подібних пропозицій із нерівністю Чебишева я виявив приголомшливо низьку ефективність. Інтуїтивно це схоже на уявлення Стьюдента про те, що розподіл t слід використовувати замість нормального розподілу для побудови КІ; оскільки ПІ набагато далі "там" у хвостах, різниця збільшується.
whuber

2
Повторіть редагування (+1): Непараметричний інтервал прогнозування може бути зрозумілий як перестановочний тест під гіпотезою нуля нуля. У цьому випадку є лише % шансів, що значення 31-го буде найбільшим чи найменшим із усіх 31 значення. Відповідний тест приходить до висновку, що 31-е значення не відповідає іншим 30, коли воно є найменшим або найбільшим. Цей тест має розмір (у звичайному розумінні ) %. Це найменший розмір, який можна досягти для (двостороннього) тесту з 30 значеннями даних. 2/316.456.45
whuber

1

Деякі думки у мене були:

Це схоже на те, щоб хотіти зробити двопробний t-тест - за винятком того, що для другого зразка я маю лише одне значення, а 30 значень не обов'язково зазвичай розподіляються.

Правильно. Ідея трохи схожа на t-тест з єдиним значенням. Оскільки розподіл не відомий, і нормальність, що має лише 30 точок даних, може бути трохи важкою для проковтування, це вимагає певного непараметричного тесту.

Якби замість 30 вимірювань у мене було 10000 вимірювань, ранг одного вимірювання міг би дати корисну інформацію.

Навіть при 30 вимірах ранг може бути інформативним.

Як зазначав @whuber, ви хочете отримати якийсь інтервал передбачення. Що стосується непараметричного випадку, то, про що ви питаєте, по суті, таке: яка ймовірність того, що дана точка даних випадково отримає ранг, який ми спостерігаємо для вашого 31-го вимірювання?

Це можна вирішити за допомогою простого тесту на перестановку. Ось приклад з 15 значеннями і роман (16-е спостереження), який насправді більший, ніж будь-який з попередніх:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Виконуємо N перестановок, де порядок елементів у списку перетасовується, потім задаємо питання: що таке ранг за значенням першого елемента у (перетасованому) списку?

Виконання N = 1000 перестановок дає нам 608 випадків, коли ранг першого елемента у списку дорівнює чи кращому рангу нового значення (фактично рівний, оскільки нове значення є найкращим). Знову запустивши моделювання для 1000 перестановок, ми отримуємо 658 таких випадків, потім 663 ...

Якщо ми виконаємо N = 1 000 000 перестановок, ми отримаємо 62825 випадків, у яких ранг першого елемента в списку дорівнює або кращому рангу нового значення (подальше моделювання дає 62871 випадків, потім 62840 ...). Якщо взяти співвідношення між випадками, в яких умова задоволена, та загальною кількістю перестановок, то отримаємо числа на зразок 0,062825, 0,062871, 0,06284 ...

Ви можете бачити, що ці величини збігаються до 1/16 = 0,0625 (6,25%), що, як зазначає @whuber, є ймовірністю того, що задане значення (з 16), проведене навмання, має найкращий можливий ранг серед них.

Для нового набору даних, де нове значення - це друге найкраще значення (тобто ранг 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

ми отримуємо (для N = 1 000 000 перестановок): 125235, 124883 ... сприятливі випадки, що, знову ж таки, наближає ймовірність того, що задане значення (з 16), проведене навмання, має друге найкраще можливе звання серед них: 2/16 = 0,125 (12,5%).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.