Я хотів би проілюструвати приклад моделювання, пов’язаного з рівнем раку (як у Джонсона та Альберта 1999). Це торкнеться першого та третього елементу вашого інтересу.
Тож проблема полягає у прогнозуванні захворюваності на рак у різних містах. Скажімо, у нас є дані про кількість людей у різних містах кількість людей, які померли від раку x i . Скажімо, ми хочемо оцінити рівень раку θ i . Існують різні способи їх моделювання, і як ми бачимо проблеми з кожним із них. Ми побачимо, як моделювання герахічних баєсів може подолати певну проблему.
1. Один із способів полягає в тому, щоб робити оцінки окремо, але ми будемо страждати від розрідженої проблеми даних, і це буде недооцінка показників, як для низьких N iNiхiθi
Ni.
2. Ще одним підходом до управління проблемою розріджених даних було б використання однакових для всіх міст та прив’язання параметрів, але це також дуже вагоме припущення.
3. Тож, що можна зробити, це те, що всі θ я подібні певним чином, але також і з міськими варіаціями. Таким чином, можна моделювати таким чином, що всі θ я отримані із загального розподілу. Скажіть x i ∼ B i n ( N i , θ i ) і θ i ∼ B e t a ( a ,θi
θiθiхi∼ B i n ( Ni, θi)
Повний спільний розподіл був би тоді p ( D , θ , η | N ) = p ( η ) ∏ N i = 1 B i n ( x i | N i , θ i ) B e t a ( θ i | η ) де η = ( a , b ) . Нам потрібно зробити висновок ηθi∼ Б е т а ( а , б )
p ( D , θ , η| N) = p ( η) ∏Ni = 1Б i н ( хi| Ni, θi) Б е т а ( θi| η)η= ( a , b )ηз даних. Якщо вона затиснута на постійну, то інформація не буде протікати між , і вони будуть умовно незалежними. Але розглядаючи η як невідомі, ми дозволяємо містам з меншими даними запозичити статистичну силу у міст з більшою кількістю даних.
Основна ідея полягає в тому, щоб більше байєсів і встановити пріорів на пріори щодо моделювання невизначеності в гіперпараметрах. Це дозволяє в цьому прикладі протікати вплив між θ i 's.θiη
θi