Приклад, де має значення принцип правдоподібності * насправді *?


20

Чи є приклад, коли два різних тести, що захищаються, з пропорційною ймовірністю призвели б до помітно різних (і однаково захищаються) висновків, наприклад, де значення p є порядком величин, але потужність до альтернатив аналогічна?

Усі приклади, які я бачу, є дуже нерозумними, порівнюючи двочлен з негативним двочленним, де р-значення першого становить 7%, а другого 3%, які є "різними" лише в тому випадку, якщо один приймає бінарні рішення щодо довільних порогів з такою значимістю, як 5% (що, до речі, є досить низьким стандартом для висновку) і навіть не намагаються дивитися на потужність. Наприклад, якщо я зміню поріг на 1%, то обидва призводять до одного і того ж висновку.

Я ніколи не бачив прикладу, де це призвело б до помітно різних і захищаючих висновків. Чи є такий приклад?

Я запитую, бо я бачив стільки чорнила, витраченого на цю тему, ніби Принцип ймовірності є чимось фундаментальним у основах статистичного висновку. Але якщо найкращим прикладом є дурні приклади, подібні до наведеного вище, принцип здається абсолютно несуттєвим.

Таким чином, я шукаю дуже переконливий приклад, коли, якщо не слідкувати за LP, маса доказів буде в основному вказувати в один бік, даючи один тест, але, в іншому тесті з пропорційною ймовірністю, вага доказів буде бути переважно вказувати у зворотному напрямку, і обидва висновки виглядають розумними.

В ідеалі, можна продемонструвати, що ми можемо мати довільно далекі, але розумні відповіді, такі як тести з p=0.1 проти з пропорційною ймовірністю та еквівалентною потужністю для виявлення тієї ж альтернативи.p=1010

PS: Відповідь Брюса взагалі не стосується цього питання.


5
Виконуючи перевірку значимості, завжди можна змінити рішення, змінивши поріг. Чи можете ви пояснити, що ви маєте на увазі під "помітно", "нерозумно" чи "переконливо"? До речі, ви, здається, читаєте статтю у Вікіпедії .
whuber

2
Ласкаво просимо в CV, @statslearner. Чи можете ви навести приклад одного або декількох конкретних підходів до висновку, які не використовують принцип ймовірності, який ви хотіли б бачити протиставленим?
Олексій

1
@whuber в ідеалі я хотів би бачити, що ви можете побудувати довільно різні відповіді, такі як, якщо ви хочете використовувати p-значення, щось на зразок p=0.5 проти p=105 , і обидва обчислення все ще здадуться захисними.
statslearner2

3
Я не можу слідувати за цим коментарем, оскільки p=105 не має сенсу. Незалежно від того, чи вважали ви просто змінювати числа, наведені у прикладі Вікіпедії?
whuber

6
Істотна відмінність від практичних наслідків полягає в обробці правил зупинки: згідно з LP вони не мають значення, поза межами LP вони є. Перевірте Berger & Wolpert (1987) на деталі.
Сіань

Відповіді:


7

Подумайте про гіпотетичну ситуацію, коли гіпотеза точкової нулі є істинною, але витримуєте вибірку до p<0,05 (це завжди відбудеться рано чи пізно, тобто це станеться з ймовірністю 1), а потім вирішить припинити пробний процес і відхилити нуль. Це загальновизнане правило зупинки, але врахуйте це заради аргументу.

Ця дебільна процедура матиме 100% помилок типу I, але в цьому немає нічого поганого відповідно до Принципу ймовірності.

Я б сказав, що це має значення як "справді". Звичайно, ви можете вибрати будь-який α у цьому аргументі. Якщо бажають, байєси можуть використовувати фіксовану межу за коефіцієнтом Байєса. Ця ж логіка застосовується. Основний урок тут полягає в тому, що ви не можете дотримуватися LP та мати гарантію рівня помилок. Безкоштовного обіду немає.


4
Я думав і про цей приклад. Але я про це не згадував, бо це справді дивно. Але насправді це те, що відбувається на практиці опосередковано та неофіційно.
Секст Емпірік

1
Які 2 статистичні дані та їх вірогідність у вашому прикладі? В нег. у двочленному та біноміальному випадку ми маємо: 1) статистику 1, кількість випробувань до 3 голів, ймовірність недвох біноміального; 2) статистика 2, кількість голів у n випробуваннях, ймовірність біномаїли. У вашому прикладі я не бачу, що таке дві статистичні дані, і якщо вони мають пропорційну ймовірність.
statslearner2

1
У вашому прикладі, ймовірно, це було б "кількість випробувань до p <0,05", які я навряд чи сумніваюся, що вона пропорційна двочленню, тому я не впевнений, що ваш приклад справедливий, Амеба.
statslearner2

1
Я не думаю, що принцип ймовірності говорить, що "нічого поганого в цьому немає". Принцип ймовірності фільтрує погані процедури. Той факт, що процедура не підкоряється принципу ймовірності, не є тим самим, який затверджується принципом ймовірності. Байєсівський аналіз цієї послідовної проблеми тестування, що, звичайно, підпорядковується принципу ймовірності, має цілком тонкі властивості, оскільки не буде реалізовувати описану вами "моронічну" процедуру.
хлопець

3
@amoeba розглянемо під альтернативою або θ = 0 під нулем, з Y iN ( θ , 1 ) . Неважко показати, що журнал коефіцієнта Байєса приблизно 1θN(0,τ1)θ=0YiN(θ,1)деZn- звичайнастатистика тестуZ. Відхилення, коли коефіцієнт Байєса більше1, то еквівалентно відхиленню, коли| Zn| >O(12[log(τ/n)+Zn2]ZnZ1. За нульовим значенням цього не гарантується у встановленні послідовного тестування (див. Закон повтореного логарифму); отже, байєсівська процедура не стане жертвою описаної вами проблеми. |Zn|>O(logn)
хлопець

4

Відмова: Я вважаю, що ця відповідь лежить в основі всього аргументу, тому варто обговорити, але я не повністю дослідив цю проблему. Тому я вітаю виправлення, уточнення та коментарі.

Найважливіший аспект стосується послідовно зібраних даних. Наприклад, припустимо, що ви спостерігали бінарні результати, і ви побачили 10 успіхів і 5 невдач. Принцип ймовірності говорить про те, що ви повинні прийти до одного і того ж висновку щодо ймовірності успіху, незалежно від того, чи збирали ви дані, поки у вас не було 10 успіхів (негативний двочлен) або не пройшли 15 випробувань, з яких 10 були успіхами (двочленними) .

Чому це має будь-яке значення?

Оскільки згідно з принципом ймовірності (або, принаймні, певної його інтерпретації), цілком чудово дозволити впливати на дані, коли ви збираєтесь зупинити збір даних, не змінюючи інструменти висновку.

Конфлікт з послідовними методами

Ідея, що використовувати ваші дані, щоб вирішити, коли припинити збирати дані, не змінюючи ваші інфекційні засоби, повністю летить перед традиційними методами послідовного аналізу. Класичний приклад цього - з методами, які використовуються в клінічних випробуваннях. З метою зменшення потенційного впливу шкідливих методів лікування часто аналізують дані в проміжні періоди до того, як буде зроблений аналіз. Якщо випробування ще не закінчилося, але в дослідників вже є достатньо даних, щоб зробити висновок про те, що лікування діє чи є шкідливим, медична етика говорить нам, що ми повинні припинити випробування; якщо лікування працює, етично припинити випробування і почати надавати лікування доступним для пацієнтів, які не отримують судового розгляду. Якщо це шкідливо, етичніше зупинятись, щоб ми припиняли піддавати пацієнтам пробне лікування шкідливому лікуванню.

Проблема полягає в тому, що ми почали проводити кілька порівнянь, тому ми збільшили рівень помилок типу I, якщо не підкоригували наші методи для врахування кількох порівнянь. Це не зовсім те саме, що традиційні багаторазові порівняння, оскільки це дійсно багаторазове часткове порівняння (тобто якщо ми аналізуємо дані один раз з 50% зібраних даних та один раз зі 100%, ці два зразки явно не є незалежними!) , але в цілому, чим більше порівнянь ми робимо, тим більше нам потрібно змінювати наші критерії відхилення нульової гіпотези, щоб зберегти показник помилок типу I, при цьому планується більше порівнянь, що потребують більше доказів для відхилення нуля.

Це ставить клінічних дослідників перед дилемою; чи хочете ви часто перевіряти свої дані, але потім збільшуйте необхідні докази, щоб відхилити нуль, чи ви хочете нечасто перевіряти свої дані, збільшуючи владу, але потенційно не діючи оптимально стосовно медичної етики (тобто, можливо, затримати товар на ринку або непотрібно довго піддавати пацієнтів шкідливому лікуванню).

Моє (можливо, помилкове) розуміння, що принцип імовірності, як видається, говорить нам про те, що не важливо, скільки разів ми перевіряємо дані, ми повинні робити той самий висновок. Це в основному говорить про те, що всі підходи до послідовного пробного проектування абсолютно непотрібні; просто використовуйте принцип ймовірності і зупиняйтеся, як тільки ви зібрали достатньо даних, щоб зробити висновок. Оскільки вам не потрібно змінювати свої методи висновків, щоб підкоригувати кількість підготовлених аналізів, немає ніякої дилеми між кількістю перевірених разів та потужністю. Бам, ціле поле послідовного аналізу вирішено (відповідно до цієї інтерпретації).

Особисто для мене це дуже бентежить, що факт, який добре відомий у галузі послідовного проектування, але досить тонкий, полягає в тому, що ймовірність остаточної статистики тесту значною мірою змінюється правилом зупинки; в основному правила зупинки збільшують вірогідність переривчастим способом у точках зупинки. Ось сюжет такого спотворення; пунктирна лінія - це PDF-файл остаточної статистики тесту під нулем, якщо дані аналізуються лише після того, як всі дані зібрані, тоді як суцільна лінія дає вам розподіл під нулем тестової статистики, якщо ви перевіряєте дані 4 рази із заданим значенням правило.

Зважаючи на це, я розумію, що принцип ймовірності, мабуть, означає, що ми можемо викинути все, що ми знаємо про послідовну розробку частот, і забути про те, скільки разів ми аналізуємо наші дані. Зрозуміло, що наслідки цього, особливо для галузі клінічних розробок, величезні. Однак я не замислювався над тим, як вони виправдовують ігнорування того, як зупиняючі правила змінюють ймовірність остаточної статистики.

Деяке світло обговорення можна знайти тут , в основному , на заключних гірках.


2
+1. Концептуально простіше думати про гіпотетичну ситуацію, коли нульова гіпотеза є правдивою, але витримувати вибірку до (ця стіна завжди відбувається рано чи пізно, тобто це станеться з ймовірністю 1), а потім вирішує припинити судовий розгляд. Ця дебільна процедура матиме 100% помилок типу I, навіть якщо вона відповідає рівню LP. p<0,05
амеба каже, що повернеться до Моніки

@amoeba: Я погоджуюся, що ваш приклад досить простий (+1). Мета моєї відповіді - підкреслити, чому навіть існує дискусія. Я думаю, що ця відповідь полягає в тому, що якби наслідки та інтерпретації ЛП були правильними, це означало б, що клінічні випробування більше не повинні вибирати між максимальною потужністю та непотрібним впливом, що було б абсолютно величезним виграшем. Загалом, це також звільнило б дослідників від необхідності заздалегідь відгадати належний розмір вибірки, що значно покращить корисність статистичних тестів.
Кліф АВ

Що ж, я думаю, що вся структура частотистських тестувань суперечить LP, і це саме так. Один використовує часті тестування, якщо хочеться гарантувати рівень помилок. Виявляється, це суперечить LP. Дивіться також парадокс Ліндлі та все це. Ну, жорсткий. Раніше я хвилювався з цих питань, але зараз мене вже немає. Безкоштовного обіду немає; треба зробити вибір. Зауважте, що багато баєсівських процедур також порушують ЛП .
Амеба каже, що повернеться Моніка

"ймовірність остаточної статистики тесту значною мірою змінюється правилом зупинки" . pdf змінюється, а також ймовірність (але лише постійною), але ви все одно можете закінчитись функціями ймовірності, однаковими до константа пропорційності. Наприклад, біноміальний розподіл і негативний біноміальний розподіл для успіхів і n випробувань мають імовірність L ( p | n , k ) , пропорційну p k p n - kкнL(p|n,k)pkpnk
Секстус Емпірік

3

Структура тестів LR для експоненціальних даних.

Нехай X1,X2,,Xn - випадкова вибірка з Exp(rate=λ), так що E(Xi)=μ=1/λ. При x>0, функція щільності f(x)=λeλx і ВПР є F(x)=1eλx.

1. Статистика тесту - вибірковий мінімум.

Нехай V=X(1)=minn(Xi).Тоді VExp(nλ).Як контур доказу,

P(V>v)=P(X1>v,,Xn>v)=[eλv]n=enλv,
so that P(Vv)=1enλv, for v>0.

To test H9:μμ0 against Ha:μ>μ0, at level α=5%, we regard V as a single observation from its exponential distribution. We find that the log likelihood ratio indicates rejection when V>c, where P(V>c|μ=μ0)=0.05.

For the specific case in which n=100 and μ0=10,λ0=0.1, we have exponential rate 10=n/μ0=100/10=10, so that c=0.2295 from R, where the exponential distribution is parameterized by the rate.

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

Accordingly, the power against the alternative μa=100 (rate n/μa=1) is about 74%.

1 - pexp(0.2996, 1)
[1] 0.7411146

2. Test statistic is the sample mean.

Oxford U. class notes (second page) show that the likelihood ratio test of H0:μμ0 against H0:μ>μ0 at the 5% level of significance rejects for X¯>c, where P(X¯>c|μ=μ0)=0.5. Furthermore, one can show using moment generating functions that X¯Gamma(n,nλ).

For the specific case in which n=100 and μ0=10,λ0=0.1, we have X¯Gamma(100,10), so that c=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

Accordingly, power against the alternative μa=14 is about 95.6%.

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

Clearly, for purposes of testing hypotheses about the exponential mean μ, the information in the sufficient statistic X¯ is much greater than the information in the sample minimum.


I don't think this address the question at all.Are the two likelihoods proportional? You first need to show the likelihood of the two experiments are proportional, otherwise the likelihood principle does not apply. Second, in this example the two tests lead to the same conclusion, so it's even more underwhelming than the example of the binomial versus negative binomial.
statslearner2

I just checked the document, the likelihoods are not proportional, since the first likelihood has v in the exponent and the other has xi, thus the likelihood principle should not apply here, it's fine for the two tests to lead to different conclusions according to the likelihood principle.
statslearner2

2
Bruce, just to clarify what the liklihood principle states: it says that if you have two experiments where the likelihoods differ only by a constant, then you should derive the same conclusion from them. This happens in the binomial versus negative binomial case, where they differ only in the binomial coefficient part (constant). Your example shows two tests where their likelihoods do not differ only by a constant, so the LP does not apply.
statslearner2

@statslearner2 the likelihood function for observing a sample x1,...,xn is:
f(x1,...,xn)=i=1nλeλxi
This is the same whether you select the minimum or the mean as a criteria to perform the test. The violation that occurs here can be seen as the type in which the definition of 'extreme cases' is different and the integration to compute the p-value is done differently.
Sextus Empiricus

3

Violation by different pdf functions f(x,θ) and g(x,θ)

This case will be an example of 'violation' because the probability distribution functions f(x,θ) g(x,θ) are intrinsically different. Even when f and g, differ, they may relate to the likelihood principle because at fixed measurement x they give the same functions of θ up to scaling. The difference, opens up a possibility for "violations".


The coin flip with or without optional stopping rule

The coin flip with or without optional stopping rule is a typical example, the pdf is binomial or negative binomial which are different pdf functions and lead to different calculation of p-values, and confidence intervals, but they lead to the same likelihood functions for fixed sample/measurement (up to scaling).

fNegative Binomial(n|k,p)=(n1k1)pk(1p)nkfBinomial(k|n,p)=(nk)pk(1p)nk


More extreme example

Consider some measurement of X which is distributed as

L(θ|x)=f(x|θ)={0 if x<0a if 0x<1(1a)θexp(θ(x1)) if x1

where a is some known parameter that depends on the type of experiment, and θ is some parameter that may be unknown and could be inferred from the measurement x.

For any given x and a the likelihood function is proportional to the same function that is independent from a:

  • If x<1 then L(θ|x)1
  • If x1 then L(θ|x)θexp(θ(x1))

But, albeit the same likelihood function, the p-value can vary widely depending on the experiment (ie the value of a). For instance when you measure x=2 and test H0:θ=1 against H0:θ<1 then the p-value is

P(X>2|θ=1)=(1a)exp(1)


Intuition: The reason for violation in these cases is that p-values and hypothesis tests are not solely based on the likelihood function for the particular observed value x.

The p-value is not calculated from the likelihood f(θ|x) with x fixed, but with the pdf f(x|θ) with θ fixed which is a different slice. Confidence intervals, p-value, and hypothesis tests, are different things than the information from likelihood ratios.

p-values are not really evidence: The p-value relates to type I error which is a measure that relates to an ensemble of measurements rather than to a single measurement. This type I error or p-value is not the same as 'evidential meaning' from Birnbaums 'foundations of statistical evidence'. This relates a lot to the problems with p-values and scientist searching for outcomes solely with statistical significance rather than important effects.

Do we need examples where inferences are markedly different? The extreme case is a contrived example. Such a case, or anything with a similar extreme difference, is of course not occurring easily in practice. It is more often the case that the difference will be small such as in the cases that you refer to as silly.

To ask for examples where the likelihood principle 'really matters', or where two different inferences lead to extremely different results, is a bit of a loaded question. At least when the intention for this question relates to some philosophical argument. It is a loaded question because it presupposes that principles that matter should lead to extremely varying results. In many practical cases the results are however small (in terms of different p-values less than an order). I believe that this is not a strange for two different, but both plausible, methods to result in more or less similar results. I would consider the likelihood principle not to be 'less violated' when the differences are only small.


Regarding Case 1: I think choosing a different test statistic can (should?) be seen as changing the likelihood function.
amoeba says Reinstate Monica

2
@MartijnWeterings yes it is choosing a different test statistics, what matters is the likelihood of the statistics, not of the data. Otherwise I can take a sequence of 100 flips and compute several statsistics: number of runs of heads, number of alternations of heads and tails. None of this violates the LP.
statslearner2

You need to pick two statistics that will have proportional likelihoods, such as the number of trials until 3 success or the number of successes in n trials etc.
statslearner2

1

Ось приклад, адаптований із теорії статистичних рішень та байєсівського аналізу Джеймса О. Бергера (друге видання, сторінка 29).

Скажіть, що два види осів можна відрізнити за кількістю висічок на крилах (назвіть це х) і за кількістю чорних кілець навколо живота (називайте це у). Розподіл символів у двох видах (марковано)Н0 і Н1) такі:

Таблиця, адаптована із теорії статистичних рішень та байєсівського аналізу Джеймса О. Бергера.

Скажіть, що ми знаходимо екземпляр з 1 виїмкою на крилах і 1 кільцем навколо живота. Вага доказів, якщо в 100 разів більша на користьН1 проти Н0 для обох персонажів.

Тепер якщо хтось хотів встановити тест на Н0 на рівні 5%, правило рішення було б для першого символу «прийняти Н0 якщо на крилі є 1 виїмка, інакше відхиліть її ", а для другого символу" прийміть Н0якщо навколо живота є 3 кільця, інакше відхиліть його ”. Існує багато інших можливостей, але це найпотужніші тести на цьому рівні. Однак вони приводять до різних висновків для обох персонажів.


Примітка : можна, звичайно, створити тест із правилом «прийнятиН0якщо навколо живота є 1 або 3 кільця, інакше відхиліть його ». Питання полягає в тому, чи не віддавати перевагу випробуванню на рівні 5% з ризиком II типу 0, або тесту на рівні 4,9% з ризиком II типу 0,00001. Різниця настільки мала, що нам, мабуть, було б не байдуже, але, як я це розумію, це суть аргументу принципу ймовірності: не годиться робити результат залежним від чогось, що здається неактуальним.


Функції ймовірності пропорційні, і все ж р-значення х=1 становить 0,95, та у=1 дорівнює 0,001 (припускаючи, що ми відкидаємо Н0 з подіями форми уα). Зі структури таблиці видно, що я міг вибрати будь-яке число, менше 0,001. Також ризик відхилення типу II дорівнює 0, тому, схоже, тут немає нічого поганого.

Я все-таки визнаю, що цей приклад дещо надуманий і не зовсім чесний, оскільки він грає з труднощами впорядкування тестів з дискретними даними. Можна було знайти еквівалентні приклади із суцільними даними, але вони були б ще більш надуманими. Я погоджуюся з ОП, що принцип ймовірності майже не має практичного значення; Я трактую це як принцип, щоб гарантувати певну послідовність у теорії.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.