Про важливість припущення iid у статистичному навчанні


54

При статистичному навчанні неявно або явно завжди передбачається, що навчальний набір складається з кортежів введення / відповіді , які незалежно виводяться з того ж спільного розподілу зD={X,y}N(Xi,yi) P(X,y)

p(X,y)=p(y|X)p(X)

і відносини, які ми намагаємося зафіксувати за допомогою певного алгоритму навчання. Математично це припущення про айд пише:p(y|X)

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

Я думаю, що ми можемо погодитися, що це припущення рідко виконується на практиці. Дивіться про це пов'язане питання SE та мудрі коментарі @Glen_b та @Luca.

Моє запитання:

Де саме припущення про Айд стає критичним на практиці?

[Контекст]

Я запитую це, тому що я можу придумати багато ситуацій, коли таке суворе припущення не потрібно для підготовки певної моделі (наприклад, методів лінійної регресії), або, принаймні, можна обходити припущення про ід і отримати надійні результати. Насправді результати , як правило, залишаються однаковими, це, скоріше, висновки, які можуть змінитися (наприклад, гетерокедастичність та послідовність автокореляції оцінок HAC в лінійній регресії: ідея полягає в повторному використанні старих добрих регресійних ваг OLS, але в адаптації кінцева вибіркова поведінка Оцінювача OLS для обліку порушення припущень Гаусса-Маркова).

Моє здогадка полягає в тому, що припущення в iid потрібно не для підготовки певного алгоритму навчання, а для того, щоб гарантувати, що такі методи, як перехресна перевірка, справді можуть бути використані для отримання надійного вимірювання можливостей моделі загального узагальнення , що це єдине, що нас цікавить наприкінці дня в статистичному навчанні, оскільки це показує, що ми можемо навчитися отримувати дані. Інтуїтивно я можу зрозуміти, що використання перехресної перевірки залежних даних може бути оптимістично упередженим (як це проілюстровано / пояснено в цьому цікавому прикладі ).

Для мене iid не має нічого спільного з навчанням певної моделі, але все, що стосується загальної спроможності цієї моделі . Це , здається, згодні з папером я знайшов Хуань Xu і ін, див «грубості і узагальненість для марковських зразків» тут .

Чи згодні ви з цим?

[Приклад]

Якщо це може допомогти в обговоренні, розгляньте проблему використання алгоритму LASSO для здійснення розумного вибору серед функцій, заданих навчальних зразків з Можна також припустити, що:Н ( Х я , у я ) я = 1 , . . . , Н Х я = [ Х я 1 , . . . , X i P ]PN(Xi,yi)i=1,...,N

Xi=[Xi1,...,XiP]
  • Входи залежні, отже, призводять до порушення припущення про iid (наприклад, для кожної функції ми спостерігаємо точковий часовий ряд, отже вводимо тимчасову автоматичну кореляцію)J=1,. . ,ПНXij=1,..,PN
  • Умовні відповіді незалежні.yi|Xi
  • Ми маємо .PN

Яким способом (ами) порушення припущення iid може спричинити проблему в цьому випадку, якщо ми плануємо визначити коефіцієнт покарання LASSO за допомогою крос-валідаційного підходу (у повному наборі даних) + використовувати вкладену перехресну перевірку щоб відчути помилку узагальнення цієї стратегії навчання (ми можемо залишити осторонь притаманних плюсів / мінусів LASSO, окрім випадків, коли це корисно).λ


1
Чи можете ви навести орієнтир, який цікавить вас, тому обговорення не надто широке для всіх методів. Ми говоримо про лінійну регресію тут? Або ми говоримо про оцінку точки для параметрів за допомогою, скажімо, MLE? Або ми говоримо про рамки CLT?
Грінпаркер

2
Якщо ви також приймаєте залежність від , то при пеніалізованій логістичній регресії людина карає ймовірність ймовірності. Якщо дані не є незалежними, ви не можете записати спільну ймовірність журналу і, отже, не зможете виконати пов'язану з проблемою оптимізації інформацію. yi
Грінпаркер

1
Ні, я думаю, що навпаки - якщо ви швидко перейдете до припущення про ід, ви можете не включити відставання , помилково (для таких цілей, як неупередженість, але також шкодить силі прогнозування), вважаючи, що вони не потрібні. y
Крістоф Ганк

3
Я не згоден, що припущення про незалежність "зазвичай порушується". Часові ряди - дуже особливий випадок - швидше виняток, ніж типовий приклад. Припущення Iid дозволяє спростити свою модель і побудувати більш приємну модель, і це часто може бути зроблено (наприклад, ваші випадки малюються випадковим чином , тому їх можна вважати незалежними).
Тім

2
У прикладі, друга куля, не слід вважати умовно iid. Вони можуть вважатися умовно незалежними, але вважається, що умовний розподіл залежить від , а значить, і змінюється з . X i iyiXii
NRH

Відповіді:


32

Iid припущення про пари , , часто робиться в статистиці та в машинному навчанні. Іноді з поважної причини, іноді із зручності, а іноді просто тому, що ми зазвичай робимо це припущення. Щоб задовільно відповісти, якщо припущення справді необхідне, і які наслідки є неприйняття цього припущення, я б легко закінчився написанням книги (якщо ви коли-небудь легко в кінці робите щось подібне). Тут я спробую дати короткий огляд того, що я вважаю найважливішим аспектом.i = 1 , , N(Xi,yi)i=1,,N

Фундаментальне припущення

Припустимо, що ми хочемо вивчити модель ймовірностей заданої , яку ми називаємо . Ми не робимо жодних припущень щодо цієї моделі апріорно, але зробимо мінімальне припущення, що така модель існує така, щоX p ( y X )yXp(yX)

  • умовний розподіл даного дорівнює .X i p ( y iX i )yiXip(yiXi)

Що варто відзначити у цьому припущенні, це те, що умовний розподіл залежить від лише через . Саме це робить модель корисною, наприклад, для прогнозування. Припущення є наслідком ідентично розподіленої частини за припущенням iid, але вона слабша, оскільки ми не робимо жодних припущень щодо . i X i X iyiiXiXi

Згодом акцентується в основному на ролі незалежності.

Моделювання

Є два основні підходи до вивчення моделі заданого . Один підхід відомий як дискримінаційне моделювання, а другий - генеративне моделювання.XyX

  • Дискримінаційне моделювання : ми моделюємо безпосередньо, наприклад, логістичну модель регресії, нейронну мережу, дерево або випадковий ліс. Працює моделювання припущення , як правило , буде що «и умовно незалежний , враховуючи » s, хоча методи оцінки , які спираються на проріджуванні або Самозавантаження максимального значення під IID або слабші обмениваемости припущення (див нижче). Але загалом для дискримінаційного моделювання нам не потрібно робити припущення щодо розподілу щодо . y i X i X ip(yX)yiXiXi
  • Генеративне моделювання : ми моделюємо спільний розподіл, , з , моделюючи умовний розподіл та граничний розподіл . Тоді ми використовуємо формулу Байєса для обчислення . Приклади лінійного дискримінантного аналізу та наївних методів Байєса. Працює моделювання припущення зазвичай буде н.о.р. припущення.p(X,y)(X,y)p(Xy)p(y)p(yX)

Для обох моделюючих підходів робоче припущення моделювання використовується для отримання або пропонування методів навчання (або оцінювачів). Це може бути завдяки максимізації (пеніалізованої) ймовірності журналу, мінімізації емпіричного ризику або використанню методів Байєса. Навіть якщо припущення робочого моделювання невірно, отриманий метод все ще може забезпечити розумне прилягання . p(yX)

Деякі методи, що застосовуються разом з дискримінаційним моделюванням, такі як мішковування (агрегація завантажувального завантаження), працюють шляхом пристосування багатьох моделей до даних, відібраних випадковим чином із набору даних. Без припущення iid (або обмінності) перекомпоновані набори даних не матимуть спільного розподілу, подібного до вихідного набору даних. Будь-яка структура залежності стала "заплутаною" шляхом перекомпонування. Я не замислювався над цим глибоко, але не бачу, чому це повинно обов'язково порушити метод як метод для вивчення . Принаймні, не для методів, заснованих на припущеннях про робочу незалежність. Я щасливий, що тут виявилися неправильними.p(yX)

Межі послідовності та помилок

Центральним питанням для всіх методів навчання є те, чи призводять вони до моделей, близьких до . Існує велика теоретична література зі статистики та машинного навчання, що стосується послідовності та меж помилок. Основна мета цієї літератури - довести, що вивчена модель близька до коли велике. Послідовність є якісною гарантією, тоді як межі помилок забезпечують (напів) явний кількісний контроль близькості та дають швидкість конвергенції.p(yX)p(yX)N

Теоретичні результати залежать від припущень щодо спільного розподілу спостережень у наборі даних. Часто робляться згадані вище припущення щодо моделювання (тобто умовна незалежність для дискримінаційного моделювання та ідентифікація для генеративного моделювання). Для дискримінаційного моделювання межі послідовності та помилок вимагатимуть, щоб відповідав певним умовам. У класичній регресії однією з таких умов є for , де позначає матрицю дизайну з рядкиXi1NXTXΣNXXiT. Слабших умов може бути достатньо для консистенції. У розрізненому вивченні ще однією такою умовою є умова обмеженого власного значення, див., Наприклад, Про умови, які використовуються для доказування результатів оракула для Лассо . Припущення про iid разом з деякими технічними припущеннями про розподіл означає, що деякі такі достатні умови виконуються з великою ймовірністю, і, таким чином, припущення про iid може виявитись достатнім, але не необхідним припущенням для отримання послідовності та меж помилок для дискримінаційного моделювання.

Припущення про незалежність робочого моделювання може бути неправильним для будь-якого з підходів моделювання. Як грубе правило, все одно можна очікувати узгодженості, якщо дані надходять з ергодичного процесу , і все ж можна очікувати певних меж помилок, якщо процес досить швидко змішується . Точне математичне визначення цих понять відвело б нас від головного питання. Досить зазначити, що існують структури залежності, окрім припущення, в якому можуть бути доведені методи навчання, як прагне до нескінченності.N

Якщо ми маємо більш детальні знання про структуру залежності, ми можемо вибрати замінити припущення про робочу незалежність, яке використовується для моделювання, на модель, яка також фіксує структуру залежності. Це часто робиться для часових рядів. Краще працююча модель може призвести до більш ефективного методу.

Оцінка моделі

Замість того, щоб довести, що метод навчання дає модель, близьку до має велике практичне значення отримати (відносну) оцінку "наскільки хороша вивчена модель". Такі бали оцінювання можна порівняти для двох або більше вивчених моделей, але вони не дадуть абсолютної оцінки того, наскільки близька вивчена модель до . Оцінки балів оцінювання, як правило, обчислюються емпірично на основі поділу набору даних на навчальний та тестовий набір даних або за допомогою перехресної перевірки.p ( y X )p(yX)p(yX)

Як і у випадку з пакетуванням, випадкове розбиття набору даних "зіпсує" будь-яку структуру залежності. Однак для методів, що ґрунтуються на припущеннях про робочу незалежність, припущення про ергодичність, слабкіші за Iid, повинні бути достатніми для того, щоб оцінки оцінок були обґрунтованими, хоча стандартні помилки в цих оцінках скласти дуже складно.

[ Редагувати: залежність між змінними призведе до розподілу вивченої моделі, що відрізняється від розподілу за припущенням iid. Оцінка, отримана за допомогою перехресної перевірки, очевидно не пов'язана з помилкою узагальнення. Якщо залежність сильна, швидше за все це буде поганою оцінкою.]

Підсумок (tl; dr)

Все вищевикладене полягає в припущенні, що існує фіксована умовна імовірнісна модель, . Таким чином, не може бути тенденцій чи раптових змін у умовному розподілі, не зафіксованих .Xp(yX)X

При вивченні моделі заданого незалежність відіграє рольXyX

  • корисне робоче припущення моделювання, яке дозволяє нам виводити методи навчання
  • достатнє, але не необхідне припущення для доведення послідовності та надання меж помилок
  • достатнє, але не необхідне припущення для використання випадкових методів розбиття даних, таких як обробка для навчання та перехресне підтвердження для оцінки.

Точно зрозуміти, які альтернативи iid, які також є достатніми, є нетривіальним і певною мірою предметом дослідження.


2
Це надзвичайно добре відполірована відповідь. Це місце на місці і дає мені достатньо довідок для самонавчання, дуже дякую за це @NRH Я в захваті. Я просто залишу щедрості, щоб заохотити інших брати на себе питання, але я вже відзначив це як прийняту відповідь, оскільки це прекрасно вирішує всі мої первісні проблеми.
Чотирнадцять

10

Що н.о.р. припущення стану є те , що випадкові величини незалежні і однаково розподілені . Ви можете формально визначити, що це означає, але неофіційно це говорить про те, що всі змінні надають однаковий вид інформації незалежно один від одного (ви також можете прочитати про пов’язану обмінність ).

З абстрактних ідей перейдемо на мить до конкретного прикладу: у більшості випадків ваші дані можуть зберігатись у матриці із спостереженнями в рядку та змінними у стовпцях. Якщо ви вважаєте, що ваші дані є ідентичними , то для вас це означає, що вам потрібно турбуватися лише про відносини між стовпцями і не потрібно турбуватися щодо відносин між рядками. Якщо ви турбуєтесь про те і інше, ви б моделювали залежність стовпців від стовпців і рядків на рядках, тобто все від усього. Дуже важко зробити спрощення і побудувати статистичну модель всього, що залежить від усього.

Ви правильно помітили, що обмінність дозволяє нам використовувати такі методи, як перехресна перевірка чи завантажувальна програма, але це також дає можливість використовувати центральну граничну теорему, і це дозволяє нам робити спрощення корисними для моделювання (мислення в стовпцях ).

Як ви помітили в прикладі LASSO, припущення про незалежність часто пом'якшується до умовної незалежності . Навіть у такому випадку нам потрібні незалежні та однаково розподілені "частини". Подібне, м'яке припущення часто робиться для згаданих вами моделей часових рядів, які припускають стаціонарність (тому існує залежність, але є також загальний розподіл і серія стабілізується з часом - знову "іid" частини). Це питання спостереження за низкою подібних речей, які несуть одне і те ж уявлення про якесь загальне явище. Якщо у нас є кілька чітких і залежних речей, ми не можемо робити жодних узагальнень.

Що ви повинні пам’ятати, це те, що це лише припущення, ми до цього не суворі. Йдеться про те, щоб мати достатньо речей, які всі незалежно передають подібну інформацію про якесь загальне явище. Якби речі впливали один на одного, вони, очевидно, передавали б подібну інформацію, щоб вони не були такою корисною.

Уявіть, що ви хотіли дізнатися про здібності дітей на уроці, тому ви даєте їм кілька тестів. Ви можете використовувати результати тесту як показник здібностей дітей, лише якщо вони робили їх самостійно, незалежно один від одного. Якби вони взаємодіяли, то, напевно, ви зможете виміряти здібності самого розумного малюка чи самого впливового. Це не означає, що вам потрібно припустити, що між дітьми взагалі не було взаємодії чи залежності, а просто те, що вони робили тести самостійно. Дітей також потрібно "ідентично розподілити", тому вони не можуть приїхати з різних країн, розмовляти різними мовами, бути різними віками, оскільки це буде важко інтерпретувати результати (можливо, вони не зрозуміли питань і відповіли випадковим чином). Якщо ви можете припустити, що ваші дані - iidто можна зосередитись на побудові загальної моделі. Ви можете мати справу з невідкладними даними, але тоді вам доведеться турбуватися про "шум" у ваших даних набагато більше.


Окрім свого основного питання, ви також ставите питання про перехресну перевірку даних, що не містять iid . Хоча вам здається, що ви занижуєте важливість припущення про іїд , в той же час ви перебільшуєте проблеми недотримання цього припущення для перехресної перевірки. Існує кілька способів, як ми можемо поводитися з такими даними при використанні методів перекомпонування, таких як завантажувальна програма або перехресне підтвердження. Якщо ви маєте справу з часовими рядами, ви не можете припустити, що значення є незалежними, тому прийняття випадкової частки значень було б поганою ідеєю, оскільки воно ігнорувало б автокорельовану структуру даних. Через це в часових рядах ми зазвичай використовуємо один крок вперед перехресну перевірку, тобто ви берете частину серії, щоб передбачити наступне значення (не використовується для моделювання). Аналогічно, якщо ваші дані мають кластерну структуру , ви вибираєте цілі кластери для збереження природи даних. Так , як з моделюванням, ми можемо мати справу з не- н.о.р. -sness також при виконанні перехресної перевірки, але ми повинні адаптувати наші методи до природи даних , так як методи , призначеним для н.о.р. даних не застосовується в таких випадках.


Я вдячний, що вам знадобилося трохи часу, щоб відповісти на мої проблеми. Хоча ви надали дійсно приємне пояснення того, що передає припущення про Айд ... це залишає мене розчарованим. (1) Для навчання LASSO достатньо (оскільки це дозволяє написати пенізовану оцінку вірогідності журналу), але який вплив не є зразок iid (що є випадком, якщо прогнози походять із часових рядів і, отже, є автокорельованими). (2) Крім того, що є результатом того, що, наприклад, не можна обмінятися використанням перехресної перевірки? (ctd) ...X iyi|XiXi
Четвірка

(ctd) ... Іншими словами, хоча ваша відповідь, безумовно, проливає деяке світло на концепцію iid, я хотів би дізнатися більше на технічній основі: коли це порушується, які наслідки є?
Четвертинка

@Quantuple, тоді ви використовуєте методи для неідентифікованих даних, наприклад, у зразках часових рядів цілі блоки даних у завантажувальному пристрої тощо
Тім

Знову дякую. Я справді пам’ятаю, як десь читав про такі прийоми. Чи є джерело, яке обговорює всі потенційні методи кандидата? Я щойно натрапив на папір К. Бергмейра, Р. Хайндмана, Б. Куо "Примітку про достовірність перехресної валідації для оцінки прогнозування часових рядів", яку я спробую прочитати якнайшвидше.
Четвертинка

1
@Quantuple перевірити класичний "Вступ до завантажувальної програми" Ефрона та Тібширані та "Методи завантаження та їх застосування" Девісона та Хінклі, щоб прочитати про завантажувальний тренінг (такі ж ідеї стосуються і перехресної перевірки); Посібники із часових рядів описують, як використовувати крос-валідацію та завантажувальну систему для таких даних (тобто на крок вперед перехресну перевірку). Перевірте також мою редакцію.
Тім

3

Єдине місце, де можна сміливо ігнорувати iid, - це ступінь бакалавратури та курси машинного навчання. Ви написали це:

можна подолати припущення про Айд і отримати надійні результати. Насправді результати зазвичай залишаються колишніми, це можна зробити висновки, що зміниться ...

Це справедливо лише в тому випадку, якщо функціональна форма моделей вважається в основному правильною. Але таке припущення є навіть менш правдоподібним, ніж Iid.

Існують щонайменше два способи, в яких iid є критично важливим з точки зору прикладного моделювання:

  1. Це явне припущення у більшості статистичних висновків, як ви зазначаєте у своєму запитанні. У більшості моделей в реальному світі на певному етапі нам потрібно використовувати умовивід, щоб перевірити специфікацію, наприклад, під час вибору змінної та порівняння моделі. Тож, хоча кожна конкретна модель може бути нормальною, незважаючи на порушення в ІДІ, ви все одно можете вибрати неправильну модель.

  2. Я вважаю, що мислення через порушення iid - це корисний спосіб подумати про механізм генерування даних, який, у свою чергу, допомагає мені подумати про відповідну специфікацію моделі апріорі. Два приклади:

    • Якщо дані кластеризовані, це є порушенням iid. Засобом для цього може бути модель суміші. Висновок, який я буду робити із моделей сумішей, як правило, зовсім інший, ніж той, який я отримую з OLS.
    • Нелінійні зв’язки між залежними та незалежними змінними часто виявляються при огляді залишків як частини дослідження iid.

Звичайно, в майже будь-якій моделі, яку я коли-небудь будував, я не зміг у своєму прагненні зменшити розподіл залишків до всього, що є близьким до справді нормального розповсюдження. Але, тим не менш, я завжди багато отримую, намагаючись зробити це дуже, дуже важко.


Дякую за вашу проникливу відповідь. В останньому реченні (1) ви маєте на увазі, що у вас може бути кілька моделей із гідним пристосуванням до спостережуваних даних, але коли ви будете використовувати стандартні методи вибору моделі (наприклад, перехресну перевірку), ви не вибрали найкращу ( з точки зору загальної спроможності), оскільки висновок, який ви робите, буде упередженим через порушення IID? (2) Мені здається, що ви говорите про залишки IID як частину функціональної специфікації (наприклад, залишки регресії), яка не робить недійсним те, що ви пишете (ctd) ...
Quantuple

(ctd) ... але первісне запитання стосувалося прикладів тренінгу, що не стосуються iid (x, y), а не залишків серед iid після оцінки моделі. Я думаю, моє запитання могло бути, якщо у вас є приклади тренінгу, що не стосуються iid (наприклад, часові ряди), чи потрібно додати крок попередньої обробки, щоб зробити їх iid? Якщо ви цього не зробите, і застосуйте стандартну процедуру для оцінки / перехресної перевірки вашої моделі, де є застереження?
Четвірка

1
Якщо у вас є приклади навчання, що не стосуються iid, ідея полягає у тому, щоб знайти модель, яка б враховувала неідентичну природу та виробляла залишки, які є iid. Хоча є деякі проблеми, де є сенс попередньо обробити дані (наприклад, перетворення змінних у лінійній регресії), багато проблем з ІДР краще вирішувати шляхом пошуку моделі, яка явно вирішує проблему iid. Наприклад, функції передачі у часових рядах або ієрархічні моделі в даних поперечного перерізу.
Тім

Я погоджуюсь з тим, що, оскільки дані часових рядів зазвичай виявляють певну форму залежності, цілком природно націлюватись на обробку цього за допомогою статистичних моделей, призначених для цього, наприклад, функцій передачі. Це стосується навчання. Тепер, що стосується перехресної перевірки (CV), я думаю, що мені також потрібні спеціальні методи для обліку неідентичності? Я маю на увазі, що використання функцій передачі не змінило того факту, що мої дані в першу чергу не є iid. Чи є десь перелік таких спеціальних методів? Наскільки великий оптимістичний ухил при використанні стандартного методу резюме з даними, що не є iid?
Четвірка

1
Це залежало б від характеру методу перехресної перевірки та проблеми. Я думаю, що фокус полягає у використанні методів перехресної перевірки, які не явно структуровані навколо iid. Наприклад, джекфіф мало б сенсу. Але поділ вибірки на вибірки для оцінки, тестування та валідації, ймовірно, міг би. Але це справді інше питання до вашого оригінального, і це не моя область знань.
Тім

2

На мою думку, є дві досить прозаїчні причини, через які припущення про важливе значення має важливе значення для статистичного навчання (або статистики взагалі).

  1. Від цього припущення залежить багато математики за лаштунками. Якщо ви хочете довести, що ваш метод навчання насправді працює для декількох наборів даних, припущення iid зрештою з’явиться. Цього можна уникнути, але математика стає в кілька разів важче.

  2. Якщо ви хочете щось дізнатися з даних, вам потрібно припустити, що є чому навчитися. Навчання неможливо, якщо кожна точка даних генерується за різним механізмом. Тому важливо припустити, що щось уніфікує даний набір даних. Якщо припустити, що дані є випадковими, то це, звичайно, розподіл ймовірностей, тому що розподіл ймовірностей охоплює всю інформацію про випадкову змінну.

    x1,...,xnxiFn

    (x1,...,xn)Fn.

    FnFmnmnFnFnnFn=Fn,xiFFnFmnF


xyx

(ctd) ... але, як ви це заявили в першій точці кулі, припущення про приклади тренінгу в iid повернеться, коли ми розглянемо властивості узагальнення LASSO. Що було б непогано (і що я відчайдушно шукаю, напевно, - це посилання / просте технічне пояснення, яке показує, як порушення припущення про iid вводить, наприклад, оптимістичну зміщення в оцінку крос-валідації).
Чотирнадцять

yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i

i=1,...,n/2i=n/2+1,...,n

xE[y|X]

1

Я хотів би підкреслити, що за деяких обставин дані не є ідентичними і статистичне вивчення все ще можливо. Важливо мати ідентифікуючу модель спільного розподілу всіх спостережень; якщо спостереження проходять, то цей спільний розподіл легко отримується при граничному розподілі одиничних спостережень. Але в деяких випадках спільний розподіл дається безпосередньо, не вдаючись до граничного розподілу.

Широко використовувана модель, в якій спостереження не є iid - це лінійна змішана модель: з , , , , і . Матриці і (дизайн) вважаються фіксованими, - вектор параметрів, - випадковий вектор і , і

Y=Xα+Zu+ε
X YRnXRn×pαRpZRn×quRqεRnXZαuuN(0,τIq)εN(0,σ2In)τσ2 - параметри моделі.

Цю модель найкраще виразити, подавши розподіл : Параметри, які слід дізнатись: , , . Спостерігається одиничний вектор розмірності ; його компоненти не є iidY N ( X α , τ Z Z + σ 2 I n ) . α τ σ 2 Y nY

YN(Xα,τZZ+σ2In).
ατσ2Yn
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.