Що саме означає позичати інформацію?


11

Мені часто люди говорять про запозичення інформації або обмін інформацією в ієрархічних моделях Баєса. Я, здається, не можу отримати прямої відповіді про те, що це насправді означає, і якщо воно є унікальним для баєсових ієрархічних моделей. Я якось здобув ідею: деякі рівні у вашій ієрархії мають спільний параметр. Я поняття навіть не маю, як це означає "запозичення інформації".

  1. Чи є "запозичення інформації" / "обмін інформацією" слово, яке люди люблять викидати?

  2. Чи є приклад із плакатами закритої форми, які ілюструють це явище спільного використання?

  3. Це унікальне для байєсівського аналізу? Як правило, коли я бачу приклади "запозичення інформації", це просто змішані моделі. Можливо, я дізнався про ці моделі по-старому, але я не бачу жодного обміну.

Мені не цікаво починати філософську дискусію щодо методів. Мені просто цікаво вживання цього терміна.


1
Для вашого питання 2. Ви можете знайти це посилання, що висвітлює: tjmahr.com/plotting-partial-pooling-in-mixed-effects-models .
Ізабелла Гхемент

Я хотів би побачити тут деякі відповіді теорії інформації.
shadowtalker

Відповіді:


10

Це термін, специфічно з емпіричного Байєса (ЕБ), насправді поняття, на яке воно посилається, не існує в справжньому байєсівському висновку. Початковим терміном було "запозичення сили", яке було введено Джоном Тукі ще в 1960-х роках, а далі популяризоване Бредлі Ефроном та Карлом Моррісом у серії статистичних статей про парадокс Стайна та параметричний ЕБ у 1970-х та 1980-х роках. Зараз багато людей використовують «запозичення інформації» або «обмін інформацією» як синоніми одного і того ж поняття. Причина, чому ви можете почути це в контексті змішаних моделей, полягає в тому, що найбільш поширені аналізи для змішаних моделей мають інтерпретацію ЕВ.

EB має багато застосувань і застосовується до багатьох статистичних моделей, але контекст завжди полягає в тому, що у вас є велика кількість (можливо, незалежних) випадків і ви намагаєтеся оцінити певний параметр (наприклад, середнє значення або дисперсію) у кожному конкретному випадку. У байєсівському висновку ви робите задні висновки щодо параметра на основі спостережуваних даних для кожного випадку та попереднього розподілу цього параметра. Для висновку EB попередній розподіл для параметра оцінюється з усієї колекції випадків даних, після чого висновок протікає як для байєсівського висновку. Отже, коли ви оцінюєте параметр для конкретного випадку, ви використовуєте як дані для цього випадку, так і передбачуваний попередній розподіл, а останній представляє "інформацію" або "сила"

Тепер ви можете зрозуміти, чому EB має "запозичення", але справжній Байєс цього не робить. У справжнього Байєса попередній розподіл вже існує, тому його не потрібно просити чи брати в борг. В ЕБ попередній розподіл створюється із самих спостережуваних даних. Коли ми робимо висновок про певний випадок, ми використовуємо всю спостережувану інформацію з цього випадку та трохи інформації з кожного іншого випадку. Ми кажемо, що це лише "запозичено", оскільки інформація повертається, коли ми рухаємось далі, щоб зробити висновок про наступний випадок.

Ідея ЕБ та "запозичення інформації" широко використовується в статистичній геноміці, коли кожен "випадок" зазвичай є геном або геномною ознакою (Smyth, 2004; Phipson et al, 2016).

Список літератури

Ефрон, Бредлі та Карл Морріс. Парадокс Штейна в статистиці. Науковий американський 236, вип. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Сміт, GK (2004). Лінійні моделі та емпіричні методи Байєса для оцінки диференціальної експресії в експериментах з мікромасивом. Статистичні програми в генетиці та молекулярній біології Том 3, випуск 1, стаття 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS, and Smyth, GK (2016). Надійна оцінка гіперпараметрів захищає від гіперваріативних генів і покращує потужність для виявлення диференціальної експресії. Літописи прикладної статистики 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920


1
Я не думаю, що це тлумачення є правильним. Наприклад, моделі змішаних ефектів запозичують інформацію, але їх можна проаналізувати в традиційному байєсівському контексті
Cliff AB

1
@CliffAB Якщо ви заглибитесь у змішаний аналіз моделі, ви виявите, що аналіз практично завжди є емпіричним Байесом, а не справжнім Байесом. Більшість авторів, звичайно, скажуть, що роблять Байєса, коли це насправді ЕБ, тому що більшість авторів не розрізняють. Якщо ви думаєте, чи можете ви навести приклад справжнього аналізу змішаної моделі Байєса, то я пропоную вам це зробити.
Гордон Сміт

1
@CliffAB У меншості випадків, коли справжній аналіз Байєса використовується для змішаних моделей (наприклад, MCMC або Winbugs), тоді використання терміна "запозичити інформацію" буде IMO не на місці. Це, безумовно, не погодиться з тим, що Тукі та Ефрон мали на увазі під «запозиченням».
Гордон Сміт

1
@CliffAB Я погоджуюся, що Brms є пакетом Bayesian, тому термін "інформація про позику" не міститься в документації на Brms.
Гордон Сміт

1
Прості байєсівські моделі не "запозичують інформацію", а багаторівневі моделі, хоча я вважаю, що більш популярним терміном у цій галузі є "часткове об'єднання". Ось класичне обговорення цього питання від А. Гельмана. Взагалі, якщо ви приймаєте думку про те, що моделі змішаних ефектів "запозичують інформацію", я не впевнений, як можна сказати, що баєсовські змішані ефекти не мають; попереднє відображається на рівні нижче запозиченої інформації. Якщо ви говорите, що моделі змішаних ефектів не запозичують інформацію, це пояснює мою плутанину щодо вашої претензії.
Кліф АВ

5

Розглянемо просту проблему, як оцінку засобів декількох груп. Якщо ваша модель розглядає їх як абсолютно не пов'язані, то єдина інформація, яку ви маєте про кожну середню, - це інформація у цій групі. Якщо ваша модель трактує їх засоби як дещо пов'язані (наприклад, у деяких моделях типу змішаних ефектів), то оцінки будуть більш точними, оскільки інформація з інших груп інформує (регулюється, скорочується до загальної середньої) оцінки для даної групи. Ось приклад "запозичення інформації".

Поняття з'являється в актуарній роботі, пов'язаній з достовірністю (не обов'язково з цим конкретним терміном "запозичення", хоча запозичення в цьому сенсі є чіткими у формулах); це триває назад, принаймні століття тому, з чіткими попередниками, що сягають до середини ХІХ ст. Наприклад, див. Longley-Cook, LH (1962) Вступ до теорії надійності PCAS, 49, 194-221.

Ось Вітні, 1918 р. (Теорія рейтингу досвіду, PCAS, 4, 274-292):

Ось такий ризик, наприклад, що його чітко можна класифікувати як машинобудівний цех. У зв'язку з відсутністю іншої інформації, вона повинна підробляти ставки магазину машин, а саме - середню ставку для всіх ризиків цього класу. З іншого боку, ризик мав власний досвід. Якщо ризик великий, це може бути кращим посібником щодо його небезпеки, ніж досвід класу. У будь-якому випадку, великий чи невеликий ризик, обидва ці елементи мають свою цінність як докази, і обидва повинні бути враховані. Складність виникає з того, що загалом докази суперечливі; Тому проблема полягає у пошуку та застосуванні критерію, який надасть кожному належну вагу.

Незважаючи на те, що термін запозичення тут відсутній, поняття використання інформації на рівні групи для інформування нас про цей машинний магазин явно існує. [Поняття залишаються незмінними, коли в цій ситуації починають застосовуватися "позичкова сила" та "інформація про запозичення"]


1
Я ціную цей приклад, оскільки він чітко пояснює, що робить запозичення, але я шукаю більш точне визначення.
EliK

Точне визначення неточним, інтуїтивний термін? Я припускаю, що це може бути можливим - можна, можливо, визначити його з точки зору зменшення дисперсії шляхом відновлення параметрів по групах, але можна дуже легко виключити правдоподібні використання поняття, зробивши це
Glen_b -Встановити Моніку

Мені не було зрозуміло, чи має неточна інтуїція дійсне визначення.
EliK

3

σR2

σR2σR2

σR2σR2σRσR2. Чим менше інформації в даних, тим важливішою стає попередня інформація. Якщо ви цього ще не зробили, я пропоную спробувати імітувати моделі змішаних ефектів лише кількома предметами. Ви можете бути здивовані тим, наскільки нестабільними є оцінки частотних методів, особливо коли ви додаєте лише одного або двох випускників… і як часто ви бачите реальні набори даних без залишків? Я вважаю, що ця проблема висвітлюється в байєсівському аналізі даних Gelman та ін., Але, на жаль, я не думаю, що його доступні для загального доступу, тому немає гіперпосилання.

Нарешті, багаторівневе моделювання - це не просто змішані ефекти, хоча вони є найпоширенішими. Будь-яку модель, на параметри якої впливають не лише пріори та дані, але й інші невідомі параметри, можна назвати багаторівневою моделлю. Звичайно, це дуже гнучкий набір моделей, але його можна скласти з нуля і підходити до мінімальної кількості роботи, використовуючи такі інструменти, як Stan, NIMBLE, JAGS тощо. До цього ступеня я не впевнений, що сказав би багаторівневий моделювання - «ажіотаж»; в основному, ви можете написати будь-яку модель, яка може бути представлена ​​як спрямований ациклічний графікі підходити до нього негайно (якщо вважати, що це розумний час виконання). Це дає набагато більше сил та потенційної творчості, ніж традиційні варіанти (наприклад, пакети моделей регресії), але не вимагає створення цілого пакету R з нуля, аби підходити до нового типу моделі.


Дякую за відповідь. Для уточнення я не припускав, що багаторівневе моделювання - це "ажіотаж". Я запитував, чи має "запозичення інформації" точне значення або чи саме цей термін є просто галасним.
EliK

@EliK: Я не впевнений, що він має точне значення; Гордон Сміт дає те, що дехто може вважати точним значенням, тобто емпіричний Байєс, але те, як я бачу цей термін, що зараз використовується, не здається, що відповідає цьому значенню. Особисто я не думаю, що це лише термін "ажіотаж"; Це саме мотивація використання моделей змішаних ефектів над моделями з фіксованими ефектами, хоча це виходить за рамки лише стандартної структури регресійної моделі. Я думаю, що багато людей говорять про більш розпливчасте "багаторівневе моделювання" замість більш точного "моделювання змішаних ефектів", оскільки це зараз модніше.
Кліф АВ

Я б сказав, що галас є у працях та блогах, де стверджується, що для впровадження багаторівневих моделей вам потрібні байєські моделі. Мене зацікавив би спрацьований приклад - де порівнюється з перекресленою регульованою моделлю (для прогнозування)
seanv507

Щодо того, що варто, єдиною альтернативою Байезіану є Максимальна ймовірність, яка є просто Байєсою з рівномірним рівнем. Тож це насправді не так.
shadowtalker

1
@shadowtalker: якщо ви вважаєте методи MLE байєсівськими, то слово байєсівське в принципі безглуздо в статистиці. Однак це відповідає деяким помилкам, які я бачу в літературі про ML.
Кліф АВ

2

Я припускаю, оскільки ви позначили машинне навчання, що вас цікавить прогнозування, а не висновок. (Я вважаю, що я узгоджуюся з відповіддю @Glen_b, але просто перекладаюсь на цей контекст / словниковий запас)

Я б сказав, що в цьому випадку це казкове слово. Регульована лінійна модель із груповою змінною буде запозичувати інформацію: прогнозування на індивідуальному рівні буде поєднанням середнього значення групи та індивідуального ефекту. Один із способів думати про регуляризацію l1 / l2 - це те, що вона призначає коефіцієнт витрат на зменшення загальної помилки, оскільки змінна групи впливає на більшу кількість вибірок, ніж на індивідуальну змінну, буде тиск для оцінки групового ефекту, залишаючи менший відхилення від груповий ефект для кожної окремої змінної.

Для окремих точок з достатньою кількістю даних індивідуальний ефект буде «сильним», для тих, у кого мало даних, ефект буде слабким.

Я думаю, що найпростіше це побачити, розглядаючи регуляризацію L1 та 3 особи однієї групи з однаковим ефектом. Нерегулярна, проблема має нескінченну кількість рішень, тоді як регуляризація дає унікальне рішення.

Призначення всього ефекту груповому коефіцієнту має найнижчу норму l1, оскільки нам потрібно лише 1 значення для покриття 3 особин. І навпаки, віднесення всього ефекту до окремих коефіцієнтів є найгіршим, а саме в 3 рази перевищує норму l1 про віднесення ефекту до групового коефіцієнта.

Зауважимо, у нас може бути стільки ієрархій, скільки ми хочемо, і на взаємодії впливає аналогічно: регуляризація призведе до впливу основних основних змінних, а не до більш рідких взаємодій.

Блог tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - посилання @IsabellaGhement дає цитату на позикову силу

"Цей ефект іноді називають усадкою, тому що більш екстремальні значення усадки тягнуться до більш розумного, середнього значення. У книзі lme4 Дуглас Бейтс пропонує альтернативу усадці [ім'я]"

Термін «усадка» може мати негативні конотації. Джон Тукі вважав за краще цей процес називати оцінкою для окремих предметів, які «позичають сили» один у одного. Це принципова відмінність моделей, що лежать в основі моделей зі змішаними ефектами, порівняно із суворо фіксованими моделями ефектів. У моделі зі змішаними ефектами ми припускаємо, що рівні коефіцієнта групування - це вибір від сукупності, і, як результат, можна очікувати, що вони певною мірою поділять характеристики. Отже, прогнози із моделі змішаних ефектів ослаблені щодо прогнозів із суворо фіксованих ефектів.


Що таке передбачення, якщо не конкретний вид умовиводу?
shadowtalker

0

Ще одне джерело, яке я хотів би порекомендувати в цій темі, яке я вважаю особливо повчальним, - це вступ Девіда Робінсона до емпіричного Бейса .

Його прикладом є те, чи вдасться бейсболісту вдарити наступний кинутий на нього м'яч. Ключова ідея полягає в тому, що якщо гравця вже багато років, людина має досить чітке уявлення про те, наскільки він здатний, і, зокрема, можна використовувати спостережуваний середній показник як досить хорошу оцінку ймовірності успіху на наступному кроці.

І навпаки, гравець, який нещодавно почав грати в лізі, ще не виявив багато свого фактичного таланту. Тож здається мудрим вибором скорегувати оцінку ймовірності його успіху на деяку загальну середню величину, якщо він був особливо успішним або невдалим у своїх перших кількох іграх, оскільки це, принаймні, певною мірою пов’язано з хорошою чи невдалою удачею .

Як другорядний момент, термін "запозичення", звичайно, не використовується в тому сенсі, що щось, що було запозичене, потрібно було б повернути в якийсь момент ;-).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.