У своєму дослідженні я зіткнувся з такою загальною проблемою: у мене є два розподіли і по одному домену і велика (але кінцева) кількість вибірок з цих розподілів. Зразки незалежно та однаково розподіляються з одного з цих двох розподілів (хоча розподіли можуть бути пов’язані між собою: наприклад, може бути сумішшю та деяким іншим розподілом.) Нульовою гіпотезою є те, що вибірки походять з , альтернативна гіпотеза полягає в тому, що зразки походять з .Q Q P P Q
Я намагаюся охарактеризувати тип I і тип II помилки в тестуванні зразка, знаючи розподілу і . В Зокрема, мене цікавить , що обмежує одну помилку дали інший, на додаток до знання і .Q P Q
Я задав запитання на math.SE щодо відношення відстані загальної варіації між і до тестування гіпотез, і отримав відповідь, яку я прийняв. Ця відповідь має сенс, але я все ще не зміг обернути свій розум навколо глибшого сенсу, що стоїть за співвідношенням відстані від загальної варіації та тестуванням гіпотез, оскільки це стосується моєї проблеми. Таким чином, я вирішив звернутися до цього форуму.Q
Перше моє запитання: чи залежить загальна варіація від суми ймовірностей помилок типу I та типу II незалежно від методу тестування гіпотез, який використовується? По суті, доки існує ненульова ймовірність того, що вибірка могла бути сформована будь-яким з розподілів, ймовірність принаймні однієї з помилок повинна бути ненульовою. В основному, ви не можете уникнути можливості того, що ваш тестувач гіпотез зробить помилку, незалежно від того, яку кількість обробки сигналу ви не зробите. І сумарна варіація обмежує саме таку можливість. Чи правильно моє розуміння?
Існує також інша залежність між помилками типу I та II та основними розподілами ймовірностей і : розбіжність KL . Таким чином, моє друге питання: чи пов'язана дивергенція KL застосовна лише до одного методу тестування певної гіпотези (здається, що існує багато методу коефіцієнта ймовірності ймовірності) чи можна застосовувати її взагалі для всіх методів тестування гіпотез? Якщо він застосований у всіх методах тестування гіпотез, то чому він, здається, настільки сильно відрізняється від зв'язаної Загальної варіації? Чи поводиться він інакше?Q
І моє основне питання: чи є встановлений набір обставин, коли я повинен використовувати або пов'язаний, або це суто питання зручності? Коли слід отримувати результат, використовуючи одне обмежене утримування, використовуючи інше?
Прошу вибачення, якщо ці питання банальні. Я є вченим-комп’ютером (тому мені здається, що це модна проблема зіставлення шаблону :). Я досить добре знаю теорію інформації, а також маю вищу освіту в теорії ймовірностей. Однак я тільки починаю вивчати всі матеріали, які перевіряють цю гіпотезу. Якщо потрібно, я зроблю все можливе, щоб уточнити свої питання.